1、连续和离散型特征的树的构建:
用字典来存储树的数据结构,包含4个元素:
a)待切分的特征
b)待切分的特征值
c)右子树。当不再需要切分的时候,也可以是单个值。
d)左子树。与右子树类似。
//2017/6/6
1、CART(classification and regression trees,分类回归树),可以用于分类和回归,值得学习。
2、模型树算法:
与回归树的做法(在每个叶节点上使用各自的均值做预测)不同,该算法需要再每个节点上都构建出一个线性模型。
3、ID3算法的优缺点:
ID3的做法每次选取当前最佳的特征来分割数据,并按照该特征的所有可能取值来切分,一旦切分后,该特征将不再起作用,因此有观点认为这种切分方式过于迅速。
另外:ID3算法不能直接处理连续型特征,只有事先将连续型特征转为离散型,才能在ID3算法中使用。
4、如何计算连续型数据的混乱度?
计算均值,求每条数据到均值的差值(平方值或绝对值)。
//2017/6/8
1、Python交互式GUI:Tkinter
由一些小部件(widget)组成:文本框、按钮、标签、复选框等对象。
还有一些布局管理器:grid()就是把部件放在一个二维表格中,可以设定部件在二维表格中的位置,从(0,0)位置开始。
Tk()用于创建根部件。