决策树算法主要分为三类:
ID3、C4.5、CART算法
以ID3算法为例:
对上表某图书销量进行预测.
思考:建立测试模型,各个变量数据权重?数据的转化?
重点在于:计算各个信息熵(数据预处理),可参考百度百科内容
决策树算法模块:
关注点:对数据需要进行预处理,转化为结构化数据,然后进行分析处理,信息熵的计算,权重大小的比较
数据的预处理模块:
#数据的处理模块
fname="C:/Users/Administrator/Desktop/pandashesuanfa/lesson.csv"
df=pd.read_csv(fname) #备注:需要将csv文件转为utf-8格式再进行读取文件
#print(df)
x=df.iloc[:,1:5].as_matrix() #提取变量值,并转化为数组
y=df.iloc[:,5].as_matrix() #等价于df.iloc[:,5:6]
for i in range(0,len(x)): #遍历所有数据
for j in range(0,len(x[i])):
thisdata=x[i][j]
if(thisdata=="是" or thisdata=="多" or thisdata=="高"):
x[i][j]=int(1) #1的类型转为整型
else:
x[i][