机器学习
文章平均质量分 79
北邮张博
读论文,写程序
展开
-
支持向量机SVM
1、简介理解SVM,咱们必须先弄清楚一个概念:线性分类器。 给定一些数据点,它们分别属于两个不同的类,现在要找到一个线性分类器把这些数据分成两类。如果用x表示数据点,用y表示类别(y可以取1或者-1,分别代表两个不同的类),一个线性分类器的学习目标便是要在n维的数据空间中找到一个超平面(hyper plane),这个超平面的方程可以表示为( wT中的T代表转置):原创 2016-07-13 18:32:00 · 1837 阅读 · 0 评论 -
第10节-VC维和模型选取
NG的第10个视频讲VC维和模型选取。NG举了文本分类的例子,说明模型选取在机器学习中的作用,我个人在实际应用中更习惯使用CHI公式,详细的文本分类的思路和代码可以参看我之前的博客(http://blog.csdn.net/irving_zhang/article/details/52214130)原创 2017-03-15 10:18:31 · 775 阅读 · 0 评论 -
第13节-混合高斯模型,混合贝叶斯模型,因子分析及其EM求解
NG的第13个视频讲解混合高斯模型,混合贝叶斯模型,因子分析及其EM求解。这部分偏向理论推导,看完视频觉得晕晕的,不知道具体可以实施在什么地方。因此在第十三节引用一篇对我个人非常有帮助的博客,也是讲解混合模型及其EM求解,只求以后复习的时候有迹可循。接下来第十四节就开始介绍主成分分析。博客地址:http://blog.csdn.NET/stdcoutzyx/article/details/37559转载 2017-03-21 10:42:51 · 4769 阅读 · 2 评论 -
第9节-偏差与方差、联合界定理和一致收敛定理
NG的第9个偏差与方差、联合界定理和一致收敛定理。原创 2017-03-13 21:20:40 · 1793 阅读 · 0 评论 -
第14节-主成分分析
第14个视频讲的是主成分分析(PCA),这是一种降维的方法,关于主成分分析的应用LSI和SVD,在第十五个笔记中会有介绍。原创 2017-03-21 16:12:03 · 846 阅读 · 0 评论 -
第15课-隐含语义索引、奇异值分解和独立成分分析
第15个视频,NG介绍了PCA的两个应用隐含语义索引(Latent Semantic Index,LSI)和奇异值分解(Singular Value Decomposition,SVD),之后开始另一种无监督学习方式独立成分分析(Independent Components Analysis)。原创 2017-03-22 16:02:09 · 956 阅读 · 0 评论 -
第11节-贝叶斯正则化与ML应用建议
NG的第11个视频讲贝叶斯正则化与ML应用建议原创 2017-03-16 12:19:23 · 686 阅读 · 0 评论 -
Kaggle入门实例-预测房价
问题链接:House Prices: Advanced Regression Techniques问题描述: 通过79个变量(几乎)描述爱荷华州埃姆斯(Ames)住宅的每一个特征,在这个竞赛里,需要你预测每个住宅的最终价格,并最终提交。参考文献: 第一次真正对这么复杂的数据进行操作,初学者都会有点不知所措。参考了其他参赛者的笔记: 1、Comprehensive data exploration原创 2017-11-17 17:09:46 · 10369 阅读 · 8 评论 -
第0节-斯坦福cs229机器学习笔记
国内本科和研究生对于机器学习的热情特别高涨,北邮研一开了一门机器学习与模式识别的课程100人的课容量,两秒就抢没了。然而据我观察很多同学学习机器学习的时候有两个问题,第一学习资料杂乱,符号标记不一致导致公式推导过程难以记忆。第二,缺少动手编程的机会,因此对很多公式理解不深刻。 斯坦福人工智能实验室是人工智能领域的扛把子,牛人包括现在在百度的吴恩达NG(具体课程CS229)和现在在Google原创 2017-01-15 11:14:52 · 4575 阅读 · 1 评论 -
第8节-核技法、软间隔分类和SMO算法
NG的第7个视频讲的最大间隔分类和对偶问题。关于SVM,NG用了三个视频才将所有的知识点讲完。本节只是介绍核技法、软间隔分类器、SMO算法。第一个视频讲解SVM直观介绍,函数间隔和几何间隔。第二个视频讲解最大间隔分类和对偶问题。个人觉得NG的SVM视频和讲义逻辑很清晰,国内的大部分博客和书本都会参照NG的思路来讲SVM。原创 2017-03-10 12:09:12 · 817 阅读 · 0 评论 -
第7节-最大间隔分类和对偶问题
NG的第7个视频讲的最大间隔分类和对偶问题。关于SVM,NG用了三个视频才将所有的知识点讲完。本节只是介绍最大间隔分类和对偶问题。上个视频讲解SVM直观介绍,函数间隔和几何间隔。第三个视频讲解核技法、软间隔分类器、SMO算法。个人觉得NG的SVM视频和讲义逻辑很清晰,国内的大部分博客和书本都会参照NG的思路来讲SVM。原创 2017-03-08 21:51:32 · 802 阅读 · 1 评论 -
knn最近邻
1、算法基本思想 K最近邻(k-Nearest Neighbor,KNN)分类算法可以说是最简单的机器学习算法了。它采用测量不同特征值之间的距离方法进行分类。它的思想很简单:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。 比如上面这个图,我们有两类数据,分别是蓝色方块和红色三角形,他们分布在一原创 2016-07-08 10:07:56 · 1627 阅读 · 0 评论 -
基于bayes分类器的文本分类
最近呆着无聊,尝试一下使用搜狗数据集的文本自动分类。读取数据集中的文件使用结巴分词去除停用词计算每种分类CHI 图中N,A+C,B+D保持不变,可以省略。 取出CHI最高的词汇作为特征词计算TF-ITF,作为特征词的权重TF(term frequency)就是分词出现的频率:该分词在该文档中出现的频率,算法是:(该分词在该文档出现的次数)/(该文档分词的总数),这个值越大表示这个词越原创 2016-08-15 19:52:14 · 2962 阅读 · 10 评论 -
第1、2节-线性规划、梯度下降和正规方程组
监督学习,非监督学习,学习理论和加强学习,便于学生理解机器学习有一个整体的认识。介绍监督学习中的线性规划问题,并且介绍了解线性规划问题的梯度下降和常规方程组的方法。原创 2017-01-12 21:00:49 · 1450 阅读 · 3 评论 -
第3节-局部加权回归、概率解释和罗蒂斯特回归
第三个视频简单介绍了欠拟合(underfitting)和过拟合(overfitting)的概念。然后开始讲解局部加权回归(locally weighted linear regression),最小二乘法的概率解释(probabilistic interpretation),逻辑斯特回归(logistic regression)和感知机(digression)。原创 2017-01-17 21:22:29 · 983 阅读 · 0 评论 -
第4节-牛顿方法、指数分布族和广义线性模型
第四个视频介绍了牛顿方法(Newton’s method),指数分布族和广义线性模型(GLM)。原创 2017-01-17 21:39:04 · 1054 阅读 · 0 评论 -
第5节-高斯判别分析和朴素贝叶斯
第五个视频介绍了高斯判别分析(Gaussian Discriminant Aanalysis)和朴素贝叶斯(Naive Bayes)。原创 2017-03-06 17:31:09 · 897 阅读 · 0 评论 -
第12节-K-means算法,高斯混合分布和EM求解算法
NG的第11个视频讲K-means算法,高斯混合分布和EM求解算法原创 2017-03-21 09:42:34 · 1101 阅读 · 0 评论 -
第6节-多项式事件模型,SVM初步
NG的第一个视频讲的是课程大纲以及机器学习的应用,本门课程大纲主要包括监督学习,非监督学习,学习理论和加强学习四个部分,便于学生理解机器学习有一个整体的认识。从第二章开始,介绍监督学习中的线性规划问题,并介绍了解线性规划问题的梯度下降和常规方程组的方法。原创 2017-03-07 21:57:42 · 890 阅读 · 0 评论 -
蒙特卡洛采样与Gibbs采样
采样采样问题指的是给定一个特定的概率分布p(z),得到一批符合这个概率分布的样本点。采样的方法有很多,MCMC是其中的一类方法,意思是利用Mento Carlo和Markov Chain完成采样。当然,要完成对各种分布的采样,有一个默认的假设,就是我们已经能够对均匀分布进行采样了(后面就专指范围为0-1的均匀分布),也就是编程中通常会用到的伪随机数发生器,在各大编程语言中通常以random命...转载 2018-09-25 17:08:07 · 2534 阅读 · 2 评论