![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习实战
ellen杨思妍
我不会一直停留在原地
展开
-
第三章 决策树
决策时是经常使用的数据挖掘算法。决策树的主要优势在于数据形式非常容易理解。决策树其计算复杂度不高,输出结果容易理解,对中间值的缺失不敏感,可以处理不相关特征数据,但是也有可能产生过度匹配的问题。为了找到决定性的特征,划分出最好的结果,需要评估每个特征,完成测试之后,原始数据集就被划分为几个数据子集。如果划分数据子集的算法和划分原始数据集的方法相同,直到所有具有相同类型的数据均在一个数据子集内。如果...原创 2018-02-26 13:07:11 · 209 阅读 · 0 评论 -
第四章 基于概率论的分类方法:朴素贝叶斯
朴素贝叶斯在数据较少的情况下仍然有效,可以处理多类别问题,但是对输入数据的准备方式较为敏感。贝叶斯决策理论的核心思想是选择具有最该概率的决策。应用贝叶斯准则得到: 如果 那么属于类别c1否则属于类别c2使用朴素贝叶斯进行文档分类:要从文本中获取特征,需要先拆分文本。特征是来自文本的词条,一个词条可以字符的任意组合。将文本看成是单词向量或者词...原创 2018-02-28 11:08:31 · 387 阅读 · 0 评论 -
第一章 机器学习的基础
机器学习简单的说就是将无序的数据转换成有用的信息,其横跨计算机科学,工程技术和统计学等多个学科,可实际应用于从政治到地质学等多个领域。 移动计算和传感器产生的海量数据意味着未来我们将面临越来越多的数据,如何从海量数据中抽取到有价值的信息将是一个非常重要的课题。 针对鸟类专家系统的机器学习模型,首先要做的是算法训练,即学习如何分类,通常要为算法输入大量已分类数据作为算...原创 2018-02-23 11:44:27 · 177 阅读 · 0 评论 -
第二章 k-近邻算法
K-近邻算法采用测量不同特征值之间的距离方法进行分类。具有精度高,对异常值不敏感,无数据输入假定的有点,缺点是计算复杂度高,空间复杂度高。k-近邻算法(KNN)的工作原理是:存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类的对应关系。输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似...原创 2018-02-24 11:45:01 · 192 阅读 · 0 评论