自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 Python数据挖掘入门与实践 第三章 用决策树预测获胜球队(二) 随机森林(RandomForest)

紧接上文,我们来看一下,决策树在训练数据量很大的情况下,能否得到有效的分类模型。我们将会为决策树添加球队,以检测它是否能整合新增的信息。虽然决策树能够处理特征值为类别型的数据,但scikit-learn库所实现的决策树算法要求先对这类特征进行处理。用LabelEncoder转换器就能把字符串类型的球队名转化为整型。代码如下:from sklearn.preprocessing import L...

2019-04-15 09:37:07 2526

原创 Python数据挖掘入门与实践 第三章 用决策树预测获胜球队(一)pandas的数据预处理与决策树(Decision tree)

作为一个NBA球迷,看到这一章还是挺激动的。不过内容有点难,研究了半天。。。要是赌球的,用这章的预测+凯利公式,是不是就能提升赢钱概率了?数据预处理回归书本内容,既然要分析,首先需要有数据:打开basketball-reference数据链接:点开Get table as CSV (for Excel),这样我们就能获得数据了。常规赛是4月16日截至,我们使用常规赛的数据~直接c...

2019-04-09 09:54:56 2547 2

原创 Python数据挖掘入门与实践 第二章2.2 流水线在预处理中的应用

2.2 流水线在预处理中的应用现实中,物体不同特征的取值范围会非常广,它们的值域可能存在天壤之别。例如材料学里面,不同材料的特征值,单位g重之类的,可能就是1和10的差别,但是拉伸强度之类的,需要使用log来进行处理,一个差就是几万,显然,单纯的使用数字来进行K近邻分析的时候,拉伸强度就会是最显著的特征,但特征值大小实际上与该特征的分类效果没有任何关系。不同特征的取值范围千差万别...

2019-04-04 09:54:30 463

原创 Python数据挖掘入门与实践 第二章2.1 cross_val_score函数

cross_val_score函数填写的第二个坑:cross_val_score函数,即交叉验证的原理是怎样的?我们可以翻阅 scikit-learn官方文档其中,下面这个图我么们可以看到,All Data可以分为n个Fold。官方的图例中,n=5。当n1用来做为test _data的时候,剩下的n2,n3,n4,n5即train_data。当n2用来做为test _data的时候,...

2019-04-02 17:29:24 3773 1

原创 Python数据挖掘入门与实践 第二章2.1 关于random_state

random_state之前的文章自己给自己挖了个坑,现在尝试来解决一下。根据之前的代码,来看看,random_state的取值在0-20的时候,是否会改变test_size和准确率。import numpy as npimport csvfrom sklearn.model_selection import train_test_splitfrom sklearn.neighbor...

2019-04-02 11:01:01 1234

原创 Python数据挖掘入门与实践 第二章2.1 书本代码

第2章:用scikit-learn 估计器分类2.1 scikit-learn 估计器看到这本书的代码。对于我这个30岁初学编程的人来讲太为精妙。忍不住想要写下来保存起来~会对代码做出一些我的理解,初学者请多多包含。注释的‘##’为代码的上方或者右侧。近邻算法即将用到的数据集叫作电离层(Ionosphere),这些数据是由高频天线收集的。这些天线的目的是侦测在电离层和高层大气中存不存...

2019-04-02 09:22:01 1060 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除