机器学习
机器学习,挑战更高难度
coding丁
中山大学,
math and computer
保持谦卑,保持自信,充满动力,充满野心
展开
-
r个桶数量的DGIM算法的错误率上限
r个桶数量的DGIM算法的错误率上限当允许具有相同大小的桶的数目是1或者2时,错误率上限为50%故对相同大小的桶的数目,令其为 r-1 或者 r ,对于最大桶和最小桶则数目可以为1~r间的任意一个数。桶合并规则为:如果大小为 2j2^j2j 的桶的数目为r+1,则将最左边的两个桶合并为一个 2j+12^{j+1}2j+1大小的桶,如果可以继续合并则继续合并直至不能合并。故当最左边的桶中仅有一个1在查询范围内时,错误率相对来说是最大的,此时查询结果被高估。假设最左边的桶大小为 2j2^j2j ,则真实原创 2020-06-11 15:23:11 · 423 阅读 · 0 评论 -
使用Logistic Regression方法对MNIST 数据集进行数字识别
使用Logistic Regression方法对MNIST 数据集进行数字识别问题描述请设计下述算法,求解 MNIST 数据集上的Logistic Regression问题:梯度下降法随机梯度法对于每种算法,请给出每步计算结果与最优解的距离以及每步计算结果在测试集上所对应的分类精度。此外,请讨论随机梯度法中Mini Batch大小对计算结果的影响。可参考:http://deeple...原创 2020-02-05 15:57:34 · 6211 阅读 · 6 评论 -
机器学习实战---KNN算法
KNN算法(机器学习实战)K-近邻算法采用测量不同特征值之间的距离方法进行分类。工作原理:已有一个样本数据集,即训练集,并且训练集的每个数据都有其对应的分类标签。输入没有标签的新数据后,将新数据的每个特征与样本集中的数据对应的特征进行比较,然后算法提取样本集中特征最相似的数据的分类标签。也就是看最相近的k个数据的标签,通过多数表决的方式进行。这里的k-NN的k即为选择的样本数据集中的前...原创 2019-11-13 10:00:58 · 491 阅读 · 0 评论 -
机器学习基础知识
机器学习基础机器学习算法分类在机器学习中,根据任务的不同,可以分为监督学习(Supervised Learning)、无监督学习(Unsupervised Learning)、半监督学习(Semi-Supervised Learning)和增强学习(Reinforcement Learning)监督学习监督学习的训练数据包含了类别信息,即数据已经经过分类处理。如垃圾邮件检测的数据集的训练样...原创 2019-09-21 21:49:03 · 215 阅读 · 0 评论 -
从一个简单的数据集学习Logistic Regression
Logistic RegressionLogistic Regression是一种被广泛使用的分类算法,通过训练数据中的正负样本,学习样本特征到样本标签之间的假设函数。通常用于将数据映射到不同类别的函数成为阈值函数,常用的阈值函数为Sigmoid函数,形式为:f(x)=11+e−xf(x)=\frac{1}{1+e^{-x}}f(x)=1+e−x1Sigmoid函数的图像:从Si...原创 2019-09-22 16:45:50 · 719 阅读 · 1 评论