机器学习
文章平均质量分 93
程序员老钟
这个作者很懒,什么都没留下…
展开
-
机器学习之决策树算法中:信息熵、信息增益、信息增益率和基尼指数的计算
决策树算法中:信息熵、信息增益、信息增益率和基尼指数的计算节选自周志华《机器学习》P75-P79页文末附上本人手工计算过程,方便理解...原创 2019-09-23 19:59:56 · 1719 阅读 · 0 评论 -
机器学习之朴素贝叶斯计算全过程
朴素贝叶斯计算下面我们用上图数据集训练一个朴素贝叶斯分类器,对测试例X进行分类:X={age=youth,income=medium,student=yes,credit=fair}首先估计类先验概率P(Ci):P(buys_computer=yes)=9/14=0.643P(buys_computer=no)=5/14=0.357然...原创 2019-09-23 20:04:29 · 3632 阅读 · 0 评论 -
通俗易懂—机器学习之支持向量机(SVM)
SVM的目标:找出能够最大化训练集数据间隔的最优分类超平面。例如,我们可以描绘一条直线然后所有代表男人的点都在直线的上边,代表女人的点都在直线的下边。这条黑色直线被称为分类超平面(如图0所示)。图0:分类超平面 ...原创 2019-09-23 20:17:41 · 1800 阅读 · 0 评论 -
机器学习之关联规则(支持度和置信度、Apriori算法)
关联规则及其基础:表1:购物篮例子的分析关联分析:用于发现隐藏在大型数据集中的有意义的联系。所发现的联系可以用关联规则或频繁项集的形式表示。例如,从表1中可以提取出:{尿布} ⟹ {啤酒}(该规则表明尿布和啤酒的销售之间存在着很强的联系)。在对购物篮进行关联分析的时候,需要处理以下两个问题: 1、从大型事务数据集中发现模式可能在计算上要付出很高的代价;...原创 2019-09-23 20:34:18 · 38428 阅读 · 6 评论 -
机器学习之聚类详解
聚类:试图将数据集中的样本划分为若干个通常是不相交的子集,每个子集称为一个“簇”。通过这样的划分,每个簇可能对应于一些潜在的概念(类别),这些概念对聚类算法而言事先是未知的,聚类过程仅能自动形成簇结构,簇所对应的概念语义需要由使用者来把握和命名。聚类既能作为一个单独过程,用于寻找数据内在的分布结构,也可以作为分类等其他学习任务的前驱过程。1.基于距离的聚类算法K-均值算法:k-m...原创 2019-09-25 10:56:49 · 1260 阅读 · 0 评论