paruda_nagao-CSDN博客

原创 Python数据挖掘入门与实践第三章用决策树预测获胜球队（二）随机森林(RandomForest)

紧接上文，我们来看一下，决策树在训练数据量很大的情况下，能否得到有效的分类模型。我们将会为决策树添加球队，以检测它是否能整合新增的信息。虽然决策树能够处理特征值为类别型的数据，但scikit-learn库所实现的决策树算法要求先对这类特征进行处理。用LabelEncoder转换器就能把字符串类型的球队名转化为整型。代码如下：from sklearn.preprocessing import L...

2019-04-15 09:37:07 2526

原创 Python数据挖掘入门与实践第三章用决策树预测获胜球队（一）pandas的数据预处理与决策树(Decision tree)

作为一个NBA球迷，看到这一章还是挺激动的。不过内容有点难，研究了半天。。。要是赌球的，用这章的预测+凯利公式，是不是就能提升赢钱概率了？数据预处理回归书本内容，既然要分析，首先需要有数据：打开basketball-reference数据链接：点开Get table as CSV (for Excel)，这样我们就能获得数据了。常规赛是4月16日截至，我们使用常规赛的数据~直接c...

2019-04-09 09:54:56 2547 2

原创 Python数据挖掘入门与实践第二章2.2 流水线在预处理中的应用

2.2 流水线在预处理中的应用现实中，物体不同特征的取值范围会非常广，它们的值域可能存在天壤之别。例如材料学里面，不同材料的特征值，单位g重之类的，可能就是1和10的差别，但是拉伸强度之类的，需要使用log来进行处理，一个差就是几万，显然，单纯的使用数字来进行K近邻分析的时候，拉伸强度就会是最显著的特征，但特征值大小实际上与该特征的分类效果没有任何关系。不同特征的取值范围千差万别...

2019-04-04 09:54:30 463

原创 Python数据挖掘入门与实践第二章2.1 cross_val_score函数

cross_val_score函数填写的第二个坑：cross_val_score函数，即交叉验证的原理是怎样的？我们可以翻阅 scikit-learn官方文档其中，下面这个图我么们可以看到，All Data可以分为n个Fold。官方的图例中，n=5。当n1用来做为test _data的时候，剩下的n2,n3,n4,n5即train_data。当n2用来做为test _data的时候，...

2019-04-02 17:29:24 3773 1

原创 Python数据挖掘入门与实践第二章2.1 关于random_state

random_state之前的文章自己给自己挖了个坑，现在尝试来解决一下。根据之前的代码，来看看，random_state的取值在0-20的时候，是否会改变test_size和准确率。import numpy as npimport csvfrom sklearn.model_selection import train_test_splitfrom sklearn.neighbor...

2019-04-02 11:01:01 1234

原创 Python数据挖掘入门与实践第二章2.1 书本代码

第2章：用scikit-learn 估计器分类2.1 scikit-learn 估计器看到这本书的代码。对于我这个30岁初学编程的人来讲太为精妙。忍不住想要写下来保存起来~会对代码做出一些我的理解，初学者请多多包含。注释的‘##’为代码的上方或者右侧。近邻算法即将用到的数据集叫作电离层（Ionosphere），这些数据是由高频天线收集的。这些天线的目的是侦测在电离层和高层大气中存不存...

2019-04-02 09:22:01 1060 1

paruda_nagao的博客

原创 Python数据挖掘入门与实践第三章用决策树预测获胜球队（二）随机森林(RandomForest)

原创 Python数据挖掘入门与实践第三章用决策树预测获胜球队（一）pandas的数据预处理与决策树(Decision tree)

原创 Python数据挖掘入门与实践第二章2.2 流水线在预处理中的应用

原创 Python数据挖掘入门与实践第二章2.1 cross_val_score函数

原创 Python数据挖掘入门与实践第二章2.1 关于random_state

原创 Python数据挖掘入门与实践第二章2.1 书本代码

空空如也

空空如也

原创 Python数据挖掘入门与实践 第三章 用决策树预测获胜球队（二） 随机森林(RandomForest)

原创 Python数据挖掘入门与实践 第三章 用决策树预测获胜球队（一）pandas的数据预处理与决策树(Decision tree)

原创 Python数据挖掘入门与实践 第二章2.2 流水线在预处理中的应用

原创 Python数据挖掘入门与实践 第二章2.1 cross_val_score函数

原创 Python数据挖掘入门与实践 第二章2.1 关于random_state

原创 Python数据挖掘入门与实践 第二章2.1 书本代码

空空如也

空空如也

原创 Python数据挖掘入门与实践第三章用决策树预测获胜球队（二）随机森林(RandomForest)

原创 Python数据挖掘入门与实践第三章用决策树预测获胜球队（一）pandas的数据预处理与决策树(Decision tree)

原创 Python数据挖掘入门与实践第二章2.2 流水线在预处理中的应用

原创 Python数据挖掘入门与实践第二章2.1 cross_val_score函数

原创 Python数据挖掘入门与实践第二章2.1 关于random_state

原创 Python数据挖掘入门与实践第二章2.1 书本代码