python数据挖掘
文件输传手助
这个作者很懒,什么都没留下…
展开
-
python数据挖掘(6.转换器抽取特征)
数据源 特征抽取是数据挖掘人物最为重要的一环,一般而言它对最终结果的影响腰搞过数据挖掘算法本身,如何选取更好的特征没有严格的规定,凭借对数据的理解,还有数据挖掘经验,还不够,还要不停的探索尝试,同时也需要一我们对于某些不是特征的数据进行数据挖掘的时候第一步就是把现实用特征表示出来,然后我们才可以使用数据挖掘找到我们问题的答案。 特征选择的另一个优点诗:降低真是世界的复杂度,模型总比现实更容易曹总,...原创 2019-12-18 09:22:58 · 255 阅读 · 0 评论 -
python数据挖掘(5.Apriori算法)
第一章我们介绍了最基础的亲和性分析,尝试了所有的规则计算了所有的置信度和支持度,但是这个方法效率不高而且我们使用的数据集只有5种商品,但是实际生活中即使是小商店的商品也会超过百种,而网店商品的种类则可能更多,依旧使用第一章的亲和性分析,那么随着商品数量的增加,计算量和计算的时间也会急剧增加,所以需要一个聪明的算法来解决这个问题 Apriori算法 Apriori算法诗一个景点的亲和性分析算法,他只...原创 2019-12-09 18:46:51 · 489 阅读 · 0 评论 -
python数据挖掘(4.决策树)
数据源 本章介绍另一种分类算法:决策树,比起其他算法决策树最主要的一个优点诗决策过程是机器和人都能看懂的,我们使用机器学习到的模型就能完成预测任务,另一个优点是他可以处理多种不同类型的特征。 我们这章使用的数据请在文章开头的数据源中python数据挖掘/Chapter4中的文件 这一章的数据诗NBA2013-2014赛季的比赛数据,这是一个CSV文件,我们将它读取到pandas中看一下 In [1...原创 2019-12-03 17:53:51 · 801 阅读 · 0 评论 -
python数据挖掘(3.scikit-learn估计器分类 近邻算法)
scikit-learn为了帮助用户实现大量分类算法,scikit-learn把相关功能封装成了所谓的估计器,他用于分类任务。主要包含了两个函数 fit():训练算法,设置内部参数,该函数接收训练集及其类别两个参数 predict():参数为测试集。预测测试类别,并返回一个包含测试集各条数据类别的数组。 近邻算法 近邻算法可能诗标准数据挖掘算法中最为直观的一种,为了对新个体进行分类,它查找训练...原创 2019-11-28 23:14:02 · 346 阅读 · 0 评论 -
python数据挖掘(2.分类 OneR算法)
数据源 分类是数据挖掘最为常用的方法之一,无论实际应用还是调研,都需要它的帮忙。对于分类问题,我们通常能拿到表示实际对象或时间的数据及,而数据集中每一条数据都有所属于的类别,这些类别把一条条的数据划分为不同的类。我们举几个例子 根据检测数据确定植物的种类。类别值为“各类植物”(各种各样的植物名称) 图片中是否包含汽车。类别是‘是否包含汽车’(是否) 上面2个问题中第一个类别为各类的植物,例如植物A...原创 2019-11-27 15:39:22 · 413 阅读 · 0 评论 -
python数据挖掘(1.亲和性分析)
python数据挖掘(1.亲和性分析) 数据源(python数据挖掘文件下的chapter1) 亲和性分析 亲和性分析根据样本之间的相似度,确定他们关系的亲疏。 下面我们说一个非常常见的应用场景,顾客在买一件商品时,商家可以趁机了解他们还想买什么,以便把多数顾客愿意同时购买的商品放到一起增加销量以提升销售额,当商家收集到足够多的数据时,可以进行亲和性分析,确定哪些商品放到一起出售效果最佳。 亲和性...原创 2019-11-26 15:44:56 · 571 阅读 · 0 评论