刘建平的文章:scikit-learn决策树算法类库使用小结
调用包
from sklearn.feature_extraction import DictVectorizer #feature_extraction 特征提取
#DictVetorizer 用于传入构造dummy_array,也可以使用pandas.get_dummies()来实现
import pandas as pd
import numpy as np
import csv#调用csv模块
from sklearn import tree#调用决策树模块
from sklearn import preprocessing#调用预处理模块
不明白就点(哪里不会点哪里)
DictVectorizer
1、导入数据
allElectronicsData=open(r'E:\个人\学习文档\决策树模板.csv','rt')#'r'/'rt'为文本模式
reader=csv.reader(allElectronicsData)#可以按行读取内容
headers=next(reader)#获取表头,也可以说是标题名称
next(reader)解释
2、数据向量化(将分类数据处理成dummy variable(后面的代码默认使用方法一的变量))
方法一:
sklearn包已经将一些计算逻辑写好,我们只需要将数据导入,但是我们需要对分类变量转换成虚拟变量的形式导入。需要对数据进行加工处理:
#建立两个列表
featureList=[]#featureList为特征(变量)列表;或者成为自变量(x)
labelList=[