机器学习
文章平均质量分 82
tonight1103
这个作者很懒,什么都没留下…
展开
-
使用Apriori算法进行关联分析
现在商家通过查看哪些商品经常在一起购买,来了解用户的购买行为。这种从数据海洋中抽取的知识可以用于商品的定价、市场促销、存货管理等环节。从规模数据集中寻找物品间的隐含关系被称作关联分析或者关联规则学习。下面首先详细讨论关联分析,然后讨论Apriori原理,Apriori算法正式基于该原理得到的。接下来创建函数频繁项集高效发现的函数,然后从频繁项集中抽取出关联规则。1.1 关联分析 关联分原创 2016-03-02 21:39:52 · 2314 阅读 · 0 评论 -
K-近邻算法
首先,我们将探讨k-近邻算法的基本理论;其次我们将使用Python从文本文件中导入并解析数据;再次,讨论当存在许多数据来源的时,如何避免计算距离时可能碰到的一些常见错误;最后,利用实际的例子讲解如何使用K-近邻算法改进约会网站。1.1 KNN算法 工作原理:存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类的对应关系。输入没有标签的新数据后原创 2016-03-06 21:28:24 · 339 阅读 · 0 评论 -
基于概率论的分类方法:朴素贝叶斯
在这里我们将完成两个过程:1.我们将充分利用Python的文本处理能力将文档切分为词向量,然后利用词向量对文档进行分类。2.我们将构建另一个分类器,观察其在真实的垃圾邮件数据集中的过滤效果。1.概率知识: 1.1贝叶斯决策理论 朴素贝叶斯是贝叶斯决策理论的一部分,所以讲述朴素贝叶斯之前有必要快速了解一下贝叶斯决策理论。 假设我们有一个数据集,它由两类数据组成,数据分布如图1-1所示原创 2016-02-27 14:29:15 · 1163 阅读 · 0 评论 -
K-均值聚类算法
聚类是一种无监督学习,它将相似的对象归到同一个簇中,有点像全自动分类。聚类方法几乎可以应用于所有对象,簇内的对象越相似,聚类的效果越好。聚类与分类的最大不同在于,分类的目标事先已知,而聚类则不一样。因为其产生的结果与分类相同,而只是类别没有预先定义,聚类有时也成为无监督分类。相似这一概念取决于所选择的相似度计算方法。 K-均值算法的工作流程是:首先随机确定K个初始点作为质点。然后将数据集中原创 2016-02-28 23:17:31 · 646 阅读 · 0 评论 -
基于协同过滤的推荐引擎
推荐引擎对因特网用户而言已经不再是什么新鲜事。Amazon会根据顾客的购买历史向他们推荐物品,Netflix会向其用户推荐电影,新闻网站会对用户推荐新闻报道…..当然,有很多方法可以实现推荐功能,这里我们只使用一种称为协同过滤(collaborative filtering)的方法。协同过滤是通过将用户和其他用户的数据进行对比来实现推荐的。1.1 相似度计算 计算物品之间的相似度,一般来说,原创 2016-02-29 23:03:14 · 1045 阅读 · 0 评论 -
Logistic回归
假设我们现在有一些数据点,我们用一条直线对这些点进行拟合(该线称为最佳拟合直线),这个拟合过程称作回归。利用Logistic回归进行分类的主要思想是:根据现有数据对分类边界线建立回归公式,以此进行分类。这里的“回归”一词源于最佳拟合,表示要找到最佳拟合参数集。训练分类器时的做法就是寻找最佳拟合参数,使用的是最优化算法。1.1 基于Logistic回归和Sigmoid函数的分类 我们想要的函数应原创 2016-04-07 21:41:06 · 445 阅读 · 0 评论 -
预测数值型数据:回归
分类的目标变量是标称型数据,而这里将会对连续型的数据作出预测。1.1 用线性回归找到最佳拟合直线 回归的目的是预测数值型的目标值。最直接的办法是依据输入写出一个目标值的计算公式。这个公式就是所谓的回归方程,求公式里的回归系数就是回归。一旦有了这些回归系数,再给定输入,做预测就非常容易了。具体的做法是用回归系数乘以输入值,再将结果全部加在一起,就得到了预测值。 应当怎样从一堆数据里原创 2016-04-25 10:28:05 · 1895 阅读 · 0 评论