机器学习入门
文章平均质量分 72
jho9o5
这个作者很懒,什么都没留下…
展开
-
sklearn官网学习入门二
摘要:Scikit-learn在处理数据,生成学习模型时,通常要求采用的数据集是以2维数组表示的。第一个坐标轴称为样本轴,表示样本编号0,1,2,3,...,n;第二个坐标轴称之为特征值,表示特征编号0,1,2,...,k于是,我们在处理非2D-array的数据集时,需要将其进行预处理,操作如下:1. 加载digits数据集from sklearn import datasetsdigit原创 2017-12-09 18:03:36 · 1200 阅读 · 0 评论 -
《Machine Learning》第三讲 逻辑回归(LR)
1.Classification(分类) 首先,我们需要了解的是,Logistic Regression这个术语中虽然有一个Regression在里面,但是它研究的不是回归问题而是分类问题。先从简单的二元分类谈起,我们假定输出的y只有0或1两种结果,当然,多元分类中,y的取值也就越多了。二元分类的应用场景有垃圾邮件分类、肿瘤良性/恶性等。 如上图所示:我们继续以肿瘤的原创 2017-10-19 20:06:40 · 653 阅读 · 0 评论 -
《Machine Learning》第四讲 正则化(regularization)
1.过拟合问题(overfitting) 过拟合问题出现的原因是,我们在进行线性回归时,选取的特征值过多,而训练样本较少时,最终所得出的代价函数J(θ) 会越来越小,甚至出现近似于0的情况。代价为0不见得是一件好事,这样训练出来的模型只是能良好的拟合训练样本数据,而我们进行线性回归的目的是预测,我们需要得到的是一个泛化能力强的模型,图中从左至右依次是欠拟合、拟合、过拟合的情况。原创 2017-10-20 11:03:37 · 421 阅读 · 0 评论 -
《Machine Learning》第七讲 Precision and Recall
1. 设计流程 在设计一个机器学习算法时,设计流程如下: 首先从一个简单的算法开始,然后尽快地去实现这个算法并在验证集中去测试,最后再收集测试结果; 第二步是根据前面学习到的模型,绘制学习曲线图,再分析曲线图来决策是过拟合的问题还是欠拟合的问题; 第三步则是误差分析,人工的来检测你的学习算法在验证集中出现错误的样本,看看能不能发现某些系统性原创 2017-10-24 20:26:22 · 642 阅读 · 0 评论 -
《Machine Learning》第二讲 线性回归与梯度下降
1.线性回归问题(linear regression)1. 代价函数定义 如图所示:线性回归主要用于连续值或者说y的范围是实数时的预测,截图中的模型是房子的大小与价格的关系图,h(x)=θ1*x+θ0,如何选择出误差最小的 w,b是问题的关键。 何为误差最小呢,这个地方给出的是 Cost function(代价函数原创 2017-10-18 16:13:55 · 434 阅读 · 0 评论 -
《Machine Learning》第五讲 神经网络
1.为什么使用神经网络 在之前的学习中,我们学会了用正则化的逻辑回归来处理分类问题,我们尝试从二分类推广到多分类,在特征维数较低的情况下,可以不错的解决分类问题。我们知道,线性分类问题中,sigmoid函数模型的参数是(θ0 + θ1 * x1 +θ2 * x2 + … + θn * xn) , 这个时候的计算量还相对较小,因为特征量的个数就是我们选取的维度的数目,我们用逻辑回归还能做,原创 2017-10-21 15:33:04 · 560 阅读 · 0 评论 -
《Machine Learning》第九讲 K-means算法
1.K-means算法定义 首先是随机地初始化 k 个聚类中心 μ1、μ2、μ3,…,μk,这些聚类中心的维度和数据集中的 x 维度是一样的,并且聚类中心是随机的,不一定是属于数据集中的点。 然后再迭代(重复)下面的操作: (1)cluster assignment(簇分配):计算数据集中的所有的点与每一个簇中心的距离,然后将该点分配给簇距离最短的一类(假原创 2017-10-30 19:41:30 · 400 阅读 · 0 评论 -
《Machine Learning》第一讲 监督/非监督学习
1.Supervised Learning给出了实际的输入与输出的结果,然后寻找一个与实际数据相匹配的算法,给出大量的训练样本,来不断的训练这个算法,以至于能够更精确的预测未知结果的用户输入。换句话来说,就是我们给了一组标准输入与标准输出,希望能够从中学习到一个匹配度高的算法,从而在输入未知数据时能够输出更为标准的答案。Classification problem(分类问题) 处理原创 2017-09-25 20:26:23 · 466 阅读 · 0 评论 -
《Machine Learning》第八讲 支持向量机(SVM)
分享两篇比较好的文章: 1.支持向量机通俗导论(理解SVM的三层境界) 2.Stanford机器学习—第八讲. 支持向量机SVM转载 2017-10-26 14:31:58 · 358 阅读 · 0 评论 -
sklearn官网学习入门一
导入sklearn内置的数据集irisfrom sklearn import datasetsiris = datasets.load_iris()导入、初始化svm分类器from sklearn import svmclf = svm.SVC() 训练分类器X, y = iris.data, iris.targetclf.fit(X, y) 将训练所得的分类器保存下来from原创 2017-12-09 16:34:37 · 953 阅读 · 0 评论