机器学习
走在分布式的路上
要不每周来一篇
展开
-
机器学习算法分类
机器学习算法分类 监督学习(特征值+目标值) 输入数据有特征有标签,即有标准答案 分类 k-近邻算法、 贝叶斯分类、 决策树与随机森林、 逻辑回归、 神经网络 回归 线性回归 岭回归 标注 隐马尔可夫模型 无监督学习(特征值) 输入数据有特征无标签,即无标准答案 聚类 k-means 数据要么是离散型要么是连续型 分类 处理目标值是离散型数据 概念:是监督学习的一...原创 2019-09-01 01:27:02 · 150 阅读 · 0 评论 -
机器学习之k-近邻算法
k-近邻算法(KNN) 定义:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。 来源:KNN算法最早由Cover和Hart提出的一种分类算法。 计算距离公式 两个样本的距离可以通过如下公式计算,又称为欧式距离,比如说,a(a1,a2,a3),b(b1,b2,b3) k-近邻算法需要标准化 sklearn k-近邻算法API...原创 2019-09-01 15:47:56 · 209 阅读 · 0 评论 -
机器学习:数据预处理之独热编码(One-Hot)
数据预处理之独热编码(One-Hot) 转载https://www.imooc.com/article/35900 在机器学习算法中,我们经常会遇到分类特征,例如:人的性别有男女,祖国有中国,美国,法国等。 这些特征值并不是连续的,而是离散的,无序的。通常我们需要对其进行特征数字化。 那什么是特征数字化呢?例子如下: 性别特征:[“男”,“女”] 祖国特征:[“中国”,"美国,“法国”] 运动特征...转载 2019-09-01 16:00:41 · 331 阅读 · 0 评论 -
机器学习之决策树
决策树 认识决策树 决策树思想的来源非常朴素,程序设计中的条件分支结构就是if-then结构,最早的决策树就是利用这类结构分割数据的一种分类学习方法 信息的单位:比特bite 信息熵和香农定理 https://blog.csdn.net/dyx810601/article/details/82226456 当得到一些信息时信息熵就减小了 信息和消除不确定性是相联系的 决策树中把能减少更多的...原创 2019-09-07 14:44:26 · 159 阅读 · 0 评论 -
文本特征提取之TFIDF
TF-IDF 是一种加权技术。采用一种统计方法,根据字词在文本中出现的次数和在整个语料中出现的文档频率来计算一个字词在整个语料中的重要程度。 主要思想:如果某个词或短语在一篇文章中出现的概率高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。 作用:用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度 优点:能过滤掉一些常见的却无关紧要的词语,同时...原创 2019-09-09 13:55:03 · 1111 阅读 · 0 评论 -
机器学习之特征预处理
特征预处理 通过特定的统计方法(数学方法)将数据转化成算法要求的数据 数值型数据 标准缩放: 1.归一化 2.标准化 3.缺失值 类别型数据 one-hot 编码 关于one-hot编码:https://blog.csdn.net/weixin_43170863/article/details/100184168 时间类型 时间的切分 sklearn特征处理API sklear...原创 2019-09-09 16:21:46 · 443 阅读 · 0 评论 -
转化器和估计器
转化器和估计器 转化器 fit():输入数据但不做事情,就是计算平均值,方差等等 transform(): 通过fit产生的平均值和方差转换数据 fit_transform() = fit() + transform() 估计器 在sklearn中,估计器(estimator)是一个重要角色,是一类实现了算法的API 用于分类的估计器: sklearn.neighbors k-近邻...原创 2019-09-14 18:26:54 · 170 阅读 · 0 评论 -
机器学习之朴素贝叶斯算法
朴素贝叶斯算法 概率基础 联合概率 定义:包含多个条件,且所有条件同时成立的概率。 记作:P(A,B) P(A,B) = P(A)P(B) 条件概率 定义:就是事件A在另外一个事件B已经发生条件下的发生概率 记作:P(A|B) P(A1,A2|B) = P(A1|B)P(A2|B) 注意:此条件概率的成立,是由于A1,A2相互独立的结果 朴素贝叶斯算法要求各个特征之间相互独立 ...原创 2019-09-15 11:57:58 · 164 阅读 · 0 评论