决策树回归
决策树
基本算法原理
核心思想:相似的输入必会产生相似的输出。例如预测某人薪资:
年龄:1-青年,2-中年,3-老年
学历:1-本科,2-硕士,3-博士
经历:1-出道,2-一般,3-老手,4-骨灰
性别:1-男性,2-女性
年龄 | 学历 | 经历 | 性别 | ==> | 薪资 |
---|---|---|---|---|---|
1 | 1 | 1 | 1 | ==> | 6000(低) |
2 | 1 | 3 | 1 | ==> | 10000(中) |
3 | 3 | 4 | 1 | ==> | 50000(高) |
… | … | … | … | ==> | … |
1 | 3 | 2 | 2 | ==> | ? |
样本数量非常庞大 100W个样本
换一种数据结构,来提高检索效率
树形结构
回归 : 均值
分类 : 投票(概率)
为了提高搜索效率,使用树形数据结构处理样本数据:
年 龄 = 1 { 学 历 1 学 历 2 学 历 3 年 龄 = 2 { 学 历 1 学 历 2 学 历 3 年 龄 = 3 { 学 历 1 学 历 2 学 历 3 年龄=1\left\{ \begin{aligned} 学历1 \\ 学历2 \\ 学历3 \\ \end{aligned} \right. \quad\quad 年龄=2\left\{ \begin{aligned} 学历1 \\ 学历2 \\ 学历3 \\ \end{aligned} \right. \quad\quad 年龄=3\left\{ \begin{aligned} 学历1 \\ 学历2 \\ 学历3 \\ \end{aligned} \right. 年龄=1⎩⎪⎨⎪⎧学历1学历2学历3年龄=2⎩⎪⎨⎪⎧学历1学历2学历3年龄=3