机器学习
文章平均质量分 77
无限大地NLP_空木
这个作者很懒,什么都没留下…
展开
-
SVM数学公式推导及个人总结
preface: 从认识这一SVM神器也快有一年了,用过svm工具包:libsvm及python sklearn里面的svm算法。但对其公式理解依然还不是很深入,最近师兄师姐们找工作面试完后跟我们交流,说到hr问关于SVM,CRF等等机器学习算法的公式推导、原理与其他的算法的差别、应用等等,并告诫我们说现在有时间可以总结下。一、SVM个人理解二、SVM数学公式推导预备知识:原创 2015-07-28 16:37:22 · 3753 阅读 · 0 评论 -
《机器学习实战》笔记之七——利用AdaBoost元算法提高分类性能
第七章 利用AdaBoost元算法提高分类性能7.1 基于数据集多重抽样的分类器基于数据集多重抽样的分类器集成方法(ensemble method)或者元算法(meta-algorithm):将不同的分类器组合起来。使用集成方法时会有多种形式:可以是不同算法的集成,也可以是同一算法在不同设置下的集成,还可以是数据集不同部分分配给不同分类器之后的集成。原创 2015-10-14 10:32:25 · 4397 阅读 · 2 评论 -
《机器学习实战》笔记之十二——使用FP-Growth算法来高效发现频繁项集
第十二章 使用FP-Growth算法来高效发现频繁项集FP-growth算法,基于Apriori构建,但在完成相同任务时采用了不同的技术,其只需要对数据库进行两次扫描,而Apriori算法对于每个潜在的频繁项集都会扫描数据集判定给定模式是否频繁,因此其比Apriori算法快。FP算法需要将数据集存储在一个特定的称作FP树的结构之后发现频繁项集或者频繁项对。12.1 FP树:原创 2015-10-13 22:45:44 · 5069 阅读 · 1 评论 -
漫谈:机器学习中距离和相似性度量方法
在机器学习和数据挖掘中,我们经常需要知道个体间差异的大小,进而评价个体的相似性和类别。最常见的是数据分析中的相关分析,数据挖掘中的分类和聚类算法,如 K 最近邻(KNN)和 K 均值(K-Means)等等。根据数据特性的不同,可以采用不同的度量方法。一般而言,定义一个距离函数 d(x,y), 需要满足下面几个准则:1) d(x,x) = 0 // 到自转载 2016-01-11 20:52:42 · 1124 阅读 · 0 评论 -
《机器学习实战》笔记之十三——利用PCA来简化数据
第十三章 利用PCA来简化数据降维技术主成分分析(PCA)对半导体数据进行降维处理13.1降维技术简化数据目的:使得数据集更易使用;降低很多算法的计算开销;去除噪声;使得结果易懂;降维方法:主成分分析(Principal Component Analysis,原创 2015-09-29 20:48:44 · 4795 阅读 · 11 评论 -
python sklearn包——3.1cross validation笔记
preface:做实验少不了交叉验证,平时常用from sklearn.cross_validation import train_test_split,用train_test_split()函数将数据集分为训练集和测试集,但这样还不够。当需要调试参数的时候便要用到K-fold。scikit给我们提供了函数,我们只需要调用即可。sklearn包中cross validation的介绍:在这里。原创 2016-02-27 11:06:11 · 14804 阅读 · 0 评论 -
Python sklearn包——mnist数据集下不同分类器的性能实验
Preface:使用scikit-learn各种分类算法对数据进行处理。2.2、Scikit-learn的测试 scikit-learn已经包含在Anaconda中。也可以在官方下载源码包进行安装。本文代码里封装了如下机器学习算法,我们修改数据加载函数,即可一键测试:classifiers = {'NB':naive_bayes_classifier,转载 2016-03-03 20:35:02 · 7597 阅读 · 0 评论 -
python sklearn包——混淆矩阵、分类报告等自动生成
preface:做着最近的任务,对数据处理,做些简单的提特征,用机器学习算法跑下程序得出结果,看看哪些特征的组合较好,这一系列流程必然要用到很多函数,故将自己常用函数记录上。应该说这些函数基本上都会用到,像是数据预处理,处理完了后特征提取、降维、训练预测、通过混淆矩阵看分类效果,得出报告。1.输入从数据集开始,提取特征转化为有标签的数据集,转为向量。拆分成训练集和测试集,这里不多讲,在原创 2016-02-29 23:09:59 · 38967 阅读 · 3 评论 -
python 机器学习——文本特征抽取与向量化
假设我们刚看完诺兰的大片《星际穿越》,设想如何让机器来自动分析各位观众对电影的评价到底是“赞”(positive)还是“踩”(negative)呢?这类问题就属于情感分析问题。这类问题处理的第一步,就是将文本转换为特征。因此,这章我们只学习第一步,如何从文本中抽取特征,并将其向量化。由于中文的处理涉及到分词问题,本文用一个简单的例子来说明如何使用Python的机器学习库,对转载 2015-09-28 11:14:46 · 5613 阅读 · 8 评论 -
《机器学习实战》笔记之十——利用K均值聚类算法对未标注数据分组
第十章 利用K均值聚类算法对未标注数据分组10.1 K-均值聚类算法K-均值是发现给定数据集的k个簇的算法,每个簇通过其质心来描述。其优点为容易实现,但可能收敛到局部最小值,在大规模数据集上收敛较慢。随机确定k个初始点为质心,为每个点找距其最近的质心,并将其分配给该质心所对应的簇,每个簇的质心更新为该簇所有点的平均值。质心可用任意距离度量方式,但结果相应的受到距离度量方式影原创 2015-10-12 17:00:32 · 4047 阅读 · 0 评论 -
《机器学习实战》笔记之九——树回归
第九章 树回归CART算法回归与模型树树减枝算法python中GUI的使用线性回归需要拟合所有的样本点(局部加权线性回归除外),当数据拥有众多特征并且特征之间关系十分复杂时,就不可能使用全局线性模型来拟合任何数据。将数据集切分成很多份易建模的数据,再用线性回归技术来建模可破。本章介绍CART(Classification And Regression Trees,原创 2015-10-06 11:32:48 · 4124 阅读 · 4 评论 -
《机器学习实战》笔记一——机器学习基础
第一章 机器学习基础机器学习的简单概述机器学习的主要任务学习机器学习的原因python语言机器学习用途广泛:当人们点击搜索引擎返回给人们的链接,搜索引擎能够记录这次点击并通过机器学习优化下次搜索结果; 通过机器学习可以在后台自动检测过滤垃圾广告邮件; 基于以往的统计知识,可以知道用户很多习惯,从而为用户提供更好的选择; 通过手写识别软件识别正确的手写地址加快邮件分拣等。人们生活原创 2015-09-01 22:37:17 · 1400 阅读 · 0 评论 -
《机器学习实战》笔记之二——K-近邻算法
第二章 K-近邻算法K-近邻算法从文本文件中解析和导入数据使用Matplotlib创建扩展图归一化数值2.1 k-近邻算法概述工作原理:存在一个样本数据集合,并且样本集中每个数据都存在标签(即目标变量,哪个类别)。输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似数据(最近邻)的分类标签。一般来说,取样本数据集中前原创 2015-09-02 20:12:15 · 3090 阅读 · 0 评论 -
《机器学习实战》笔记之三——决策树的构造
第三章 决策树的构造决策树简介在数据集中度量一致性使用递归构造决策树使用Matplotlib绘制树形图决策树主要优势:数据形式非常容易理解。优点:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特征。缺点:可能会产生过度匹配问题,即过拟合问题。例子:长方形:判断模块椭圆形:终止模块左右箭头原创 2015-09-03 23:27:03 · 5039 阅读 · 1 评论 -
《机器学习实战》笔记之四——基于概率论的分类方法:朴素贝叶斯
第四章 基于概率论的分类方法:朴素贝叶斯基础:统计特征在数据集中取某个特定值的次数,然后除以数据集的实例总数,得到特征取该值的概率。4.1 基于贝叶斯理论的分类方法假设有两类数据组成的数据集如下:假设:p1(x,y)表示数据点(x,y)属于类别1的概率。p2(x,y)表示数据点(x,y)属于类别2的概率。贝叶斯决策理论的核心思想:选择原创 2015-09-06 11:53:28 · 3371 阅读 · 3 评论 -
《机器学习实战》笔记之五——Logistic回归
第五章 Logistic回归回归:对一些数据点,算法训练出直线参数,得到最佳拟合直线,能够对这些点很好的拟合。训练分类器主要是寻找最佳拟合参数,故为最优化算法。5.1 基于Logistic回归和sigmoid函数的分类实现Logistic回归分类器:在每个特征上都乘以一个回归系数,然后把所有的结果值相加,总和带入sigmoid函数,其结果大于0.5分为第0类,结原创 2015-09-07 22:48:53 · 5567 阅读 · 3 评论 -
《机器学习实战》笔记之七——利用AdaBoost元算法提高分类性能
第七章 利用AdaBoost元算法提高分类性能7.1 基于数据集多重抽样的分类器7.2 训练算法:基于错误提升分类器的性能7.3 基于单层决策树构建弱分类器7.4 完整AdaBoost算法的实现7.5 测试算法:基于AdaBoost的分类7.6 示例:在一个难数据集上应用AdaBoost7.7 非均衡分类问题原创 2015-09-12 16:47:35 · 911 阅读 · 0 评论 -
《机器学习实战》笔记之十一——使用Apriori算法进行关联分析
第十一章 使用Apriori算法进行关联分析11.1 关联分析11.2 Apriori原理11.3 使用Apriori算法来发现频繁集11.4 从频繁项集中挖掘关联规则11.5 示例:发现毒蘑菇的相似特征原创 2015-10-12 19:31:22 · 20475 阅读 · 3 评论 -
《机器学习实战》笔记之十四——利用SVD简化数据
第十四章 利用SVD简化数据14.1 SVD的应用特点:利用SVD能够用小得多的数据集来表示原始数据集。优点:简化数据,去除噪声,提高算法的结果。缺点:数据的转换可能难以理解。隐性语义索引(LSI)利用SVD的方法为隐性语义索引(Latent Semantic Indexing, LSI)或隐性语义分析(Latent Se原创 2015-10-01 22:25:32 · 2527 阅读 · 1 评论 -
spark进行机器学习初探Demo
关键词:spark对象初始化 transformer定义 VectorAssembler特征合并 pipeline训练 模型保存及测试 结果保存from pyspark.sql import SparkSessionspark = SparkSession.builder.enableHiveSupport().getOrCreate()# 注意编码问题,python2.7...原创 2019-04-02 15:07:41 · 583 阅读 · 0 评论