33.python数据挖掘与入门实践

如何进行数据挖掘?
1.创建数据集,表示真实世界中物体的样本;描述样本的特征,重点是抽取特征

第一章开始数据挖掘之旅:
?举了一个简单的亲和性分析的例子,用它找出顾客经常一起购买的商品。这种探索性的 分析方法用处很大,能帮助人们发现商业流程、某个环境或场景中的潜在规律。亲和性分析可用 在商业、医疗、人工智能等领域,说不定能这些领域带来突破。
?本章还通过OneR算法介绍了分类的应用。该算法寻找最佳的特征值用于分类,该特征值在 训练集中哪个类别中出现的次数最多,待预测数据就属于哪个类别。
后续章节会扩展分类和亲和性分析的概念,同时还会介绍scikit-learn库以及它实现的一 些数据挖掘算法。

第二张用scikit-learn估计器分类:
本章使用scikit-learn库的另一个分类器DecisionTreeClassifier,并介绍了如何用 pandas处理数据。我们分析了真实的NBA赛事的比赛结果数据,创建新特征用于分类,并在这个 过程中发现即使是规整、干净的数据也可能存在一些小问题。
我们发现好的特征对提升正确率很有帮助,还使用了一种集成算法——随机森林,进一步提 升正确率。
下一章将会扩展在第1章使用的亲和性分析算法,用来发现相似的电影。我们还将学到如何 用算法解决排序问题,以及如何提升数据挖掘算法的可扩展性。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值