机器学习
夏天de雪
like IT,just to be a coder
展开
-
机器学习10大经典算法简介
C4.5 C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3算法. C4.5算法继承了ID3算法的优点,并在以下几方面对ID3算法进行了改进:1) 用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足;2) 在树构造过程中进行剪枝;3) 能够完成对连续属性的离散化处理;4) 能够对不完整数据进行处理。 C4.5算法有如下优点:产生的分类规则易于理解,准确率原创 2016-11-13 23:33:01 · 868 阅读 · 0 评论 -
文本数据的机器学习自动分类方法(上)
本文为第一部分,着重介绍文本预处理以及特征抽取的方法。 随着互联网技术的迅速发展与普及,如何对浩如烟海的数据进行分类、组织和管理,已经成为一个具有重要用途的研究课题。而在这些数据中,文本数据又是数量最大的一类。“文本分类是指在给定分类体系下,根据文本内容自动确定文本类别的过程”(达观数据科技联合创始人,张健)。文本分类有着广泛的应用场景,例如: 新闻网站包含大量报道文章,基于文章内容,需要将这些转载 2016-12-03 10:47:41 · 2114 阅读 · 0 评论 -
文本数据的机器学习自动分类方法(下)
本文为第二部分,着重介绍特征向量权重的影响因素以及样本训练和分类评估方法。 随着互联网技术的迅速发展与普及,如何对浩如烟海的数据进行分类、组织和管理,已经成为一个具有重要用途的研究课题。而在这些数据中,文本数据又是数量最大的一类。首先来回顾一下上一篇所提到的文本分类的流程,如图 1所示,包括训练、特征抽取、训练模型、分类预测等几个主要环节。 图 1 文本分类流程图 (一):特征向量权重的影转载 2016-12-03 14:59:47 · 1056 阅读 · 0 评论 -
矩阵向量求导
数据挖掘中常用到矩阵求导,而之前学的高数里求导没有矩阵,线性代数中矩阵没有求导。现总结如下:原创 2016-12-04 00:55:03 · 479 阅读 · 0 评论