2018年06月_昌李

原创机器学习--（第三周）逻辑回归编程练习总结

1、线性逻辑回归系统函数sz = size (a)返回具有对象a的每个维度的大小（元素数量）的行向量。options = optimset (par, val, …)为优化功能创建选项结构。在没有任何输入或输出参数的情况下调用时，optimset打印所有有效优化参数的列表。当使用一个输出调用并且没有输入时，返回一个选项结构，其中所有有效选项参数初始化为[]。当使用参数/值对列表进行调用时，只返回初...

2018-06-28 21:27:19 882

原创机器学习--线性回归和多元线性回归编程作业总结

1、单变量线性回归预测模型数据操作data（:,1）返回数据第一列length (a)返回对象a的长度。空对象的长度为0，标量为1，矢量元素的数量。对于矩阵或N维对象，长度是沿最大维度的元素数量（等于max（size（a）））zero系统函数linspace (start, end, n)在开始和结束之间返回具有n个线性间隔元素的行向量。如果元素的数量大于1，那么端点的开始和结束总是包含在范围内...

2018-06-27 21:32:21 2167

原创机器学习（第十一周）--图片OCR算法

OCR识别文字流程：1、识别出文字区域（通过滑动窗口算法，遍历整个图片，有监督的标记训练样本特征进行判断，找到目标图片进行矩形化摘取出来）2、对文字区域矩形分割，拆分成不同的字符(在矩形中做一维滑动窗口移动，判断字符间间距，对字符进行划分)3、字符分类（对划分好的字符根据监督算法，对字符进行预测）4、识别出来文字（最终识别出整个字符）整个流程由多个任务的构成流程图如下：举例如下：通过学习曲线判断分...

2018-06-27 16:45:33 17331

原创机器学习（第十周）--适用大数据的算法

1、随机梯度下降批量梯度下降在运用到样本数据较多的情况下，计算量会非常的大，更适合选用随机梯度下降方式批量梯度下降，在计算θ值过程中每次迭代要读入全体样本数据，每次计算m个加和项迭代随机梯度下降，只考虑一个样本的计算结果，每次迭代只计算一个样本的θ迭代随机梯度下降两种算法迭代方式是不同的批量梯度下降，每次迭代就会逐渐收敛，最终收敛到中心点随机梯度下降，随机梯度下降收敛过程跟样本选取有关，迭代过程会...

2018-06-27 16:45:05 1287

原创机器学习（第九周）--异常检测和推荐系统

密度估计异常检测(Anomaly detection)问题：给定图中的这个训练集如果你建立了一个模型，你将很可能发现部分点很可能发现模型p(x) 将会认为在中心区域的这些点有很大的概率值，而稍微远离中心区域的点概率会小一些更远的地方的点它们的概率将更小这外面的点和这外面的点将成为异常点异常监测应用：1、质量控制测试（QA）2、欺诈监测3、数据中心的计算机监控使用高斯分布密度函数...

2018-06-27 16:44:31 722

原创机器学习（第八周）--无监督学习聚类算法

聚类聚类算法 kmeans原理：1、随机选取k个中心点；2、在第i次迭代中，对于每个样本点，选取最近的中心点，归为该类；3、更新中心点为每类的均值；4、i<-i+1 ,重复(2)(3)迭代更新，直至误差小到某个值或者到达一定的迭代步数，误差不变.在每次迭代之后，误差变小过程就是趋于收敛的过程；达到一定程度，误差不变，已经完成分类K-means优化函数不同的初始化中心点对聚类结果影响较大，如下...

2018-06-27 16:42:47 721

原创机器学习（第七周）--支持向量机

以逻辑回归引入支持向量机线性可分的情况下：逻辑回归的代价函数极限情况下：分类y=1，θ'x取分类效果较好的极限，>>0，使用直线的方式表示为左下角图分类y=0，θ'x取分类效果较好的极限，<<0，使用直线的方式表示为右下角图分类的效果是最理想的，分类的点的代价函数也能够满足代价函数最小，分类的边界线或者超平面也会是最优的，线性代数原理就是点到分类的界限的...

2018-06-27 16:41:32 345

原创机器学习（第五周）--神经网络

神经网络代价函数K：最终分类类的类别个数L：神经网络层数si:第i层中的单位数量（不包括偏差单位）我们已知逻辑回归代价函数的一般形式，神经网络最后一层的分类算法也可以是逻辑回归。对目标函数累加值求均值，以及对参数平方和累加...

2018-06-17 10:18:03 377

原创机器学习（第六周）--算法评价以及优化

模型评价方法假设对于训练样例可能具有较低的误差，但仍然不准确（因为过度拟合）。因此，为了评估假设，给定训练样例的数据集，我们可以将数据分成两组：训练集和测试集。通常，培训集由70％的数据组成，测试集为剩余的30％线性回归分别使用训练集和数据集计算使用训练数据集，训练得到训练数据集中最小的θ计算测试数据集中测试的误差如果训练集误差较小，测试集误差较大。我们训练的模型在训练集上市过度拟合的，在测试...

2018-06-17 10:17:20 518

原创机器学习（第四周）-神经网络表层结构

神经网络表述有些问题的解决依赖于复杂的非线性分类器，逻辑回归中包含很多多项式项，随着特征值的数量增长，即使只包含二项式多项式会呈n^2级别增长，n个特征值，会有n^2/2个二项式多项式。多项式过多，就会存在计算量过大的问题。只是简单的增加二次项或者三次项之类的逻辑回归算法并不是一个解决复杂非线性问题的好办法因为当n很大时将会产生非常多的特征项，神经网络它在解决复杂的非线性分类问题上...

2018-06-12 13:29:37 533

原创机器学习（第三周）逻辑回归&正则化

1、二元分类要尝试分类，一种方法是使用线性回归，并将所有大于0.5的预测值映射为1，将小于0.5的所有预测值映射为0二元分类问题，其中y只能取两个值0和1Sigmoid Function（逻辑回归函数）hθ(x)=g(θTx)z=θTxg(z)=11+e−z因为只能取两个值0和1hθ(x)=P(y=1|x;θ)=1−P(y=0|x;θ)P(y=0|x;θ)+P(y=1|x;θ)=1hθ(x)=P(...

2018-06-10 10:01:39 462

原创机器学习（第二周）-多元线性回归

多元线性回归模型hθ（x）使用矩阵乘法表示，结果如下：x0=1时，矩阵乘法结果与假设的模型一致1、梯度下降多变量，θ计算方法如下：即多元变量因为数据各自单位差异，直接使用进行迭代时间较长，效率较低。对变量进行归一化处理，特征值缩放后，可以提高计算效率。特征值缩放一般方式如下：Xn表示第n个特征，也就是特征变量X的第n维Un表示特征的平均值，也就是所有特征向量集第n个特征的平均值Sn表示标准差，方差...

2018-06-09 15:32:13 284

原创机器学习（第一周）-单变量线性回归

模型简单结构当我们试图预测的目标变量是连续的，例如在我们的住房示例中，我们称学习问题为回归问题当y只能接受少量离散值（例如，如果给定居住面积，我们想要预测一个住宅是房子还是公寓），我们称之为分类问题用一个变量进行线性回归，单变量线性回归。单变量线性回归，模型假设以及参数：代价函数(Cost Function): 计算整个训练集所有损失之和的平均值J ( θ0,θ1)=2 m1i = 1...

2018-06-09 09:38:49 347

liyanchang567的博客