决策树分类原理
信息增益公式
- 例子1-信息增益和信息增益熵
- 例子2-信息增益和信息增益熵
信息增益率
- 公式
- 例子
- C4.5算法流程
基尼系数
-
公式
-
例子
总结
cart剪枝-SCI
-
预剪枝:边看边剪枝,如果可以提高精度,那么就划分。
-
后剪枝
特征提取API
字典特征提取API
- 代码
from sklearn.feature_extraction import DictVectorizer
def dict_demo():
"""
字典特征提取
:return: None
"""
# 1.获取数据
data = [{'city': '北京', 'temperature': 100},
{'city': '上海', 'temperature': 60},
{'city': '深圳', 'temperature': 30}]
# 2.字典特征提取
# 2.1 实例化
transfer = DictVectorizer(sparse=True)
# 2.2 转换
new_data = transfer.fit_transform(data)
print(new_data)
# 2.3 获取具体属性名
names = transfer.get_feature_names()
print("属性名字是:\n", names)
if __name__ == '__main__':
dict_demo() #字典特征提取
- 结果;sparse=True,false;可以提高效率节省内存
文本特征提取API
英文文本
- conda安装
conda install -c conda-forge jieba
-
conda环境路径切换
-
代码
from sklearn.feature_extraction import DictVectorizer
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
def english_count_demo():
"""
文本特征提取-英文
:return: None
"""
# 获取数据
data = ["life is is short,i like python",
"life is too long,i dislike python"]
# 文本特征转换
# transfer = CountVectorizer(sparse=True) # 注意:没有sparse这个参数
transfer = CountVectorizer(stop_words=["dislike"])#stop_words=["dislike"]停止这个单词的提取
new_data = transfer.fit_transform(data)
# 查看特征名字
names = transfer.get_feature_names()
print("特征名字是:\n", names)
print(new_data.toarray()) #这里转成二维数组
print(new_data)
if __name__ == '__main__':
english_count_demo()
- 结果;没有sparse这个参数
中文文本
- 代码
from sklearn.feature_extraction import DictVectorizer
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
import jieba #结巴分词
def chinese_count_demo1():
"""
文本特征提取-中文
:return: None
"""
# 获取数据
data = ["人生 苦短,我 喜欢 Python", "生活 太长久,我 不喜欢 Python"]
# 文本特征转换
transfer = CountVectorizer()
new_data = transfer.fit_transform(data)
# 查看特征名字
names = transfer.get_feature_names()
print("特征名字是:\n", names)
print(new_data.toarray())
print(new_data)
def cut_word(text):
"""
中文分词
:param text:
:return:
"""
# ret = " ".join(list(jieba.cut(text)))
# print(ret)
return " ".join(list(jieba.cut(text)))
def chinese_count_demo2():
"""
文本特征提取-中文
:return: None
"""
# 1.获取数据
data = ["一种还是一种今天很残酷,明天更残酷,后天很美好,但绝对大部分是死在明天晚上,所以每个人不要放弃今天。",
"我们看到的从很远星系来的光是在几百万年之前发出的,这样当我们看到宇宙时,我们是在看它的过去。",
"如果只用一种方式了解某样事物,你就不会真正了解它。了解事物真正含义的秘密取决于如何将其与我们所了解的事物相联系。"]
# 2.文章分割
list = []
for temp in data:
list.append(cut_word(temp))
print(list)
# 3.文本特征转换
# 3.1 实例化+转化
transfer = CountVectorizer(stop_words=["一种", "今天"])
new_data = transfer.fit_transform(list)
# 3.2 查看特征名字
names = transfer.get_feature_names()
print("特征名字是:\n", names)
print(new_data.toarray())
print(new_data)
if __name__ == '__main__':
chinese_count_demo1()
# cut_word("我爱你python, 人生苦读,我用python")
chinese_count_demo2()
- 结果
Tf-idf
- 用以评估一个字词对于一个文件集或者一个语料库中的其中一份文件的重要程度。
- 代码
from sklearn.feature_extraction import DictVectorizer
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
import jieba
def tfidf_demo():
"""
文本特征提取-中文
:return: None
"""
# 1.获取数据
data = ["一种还是一种今天很残酷,明天更残酷,后天很美好,但绝对大部分是死在明天晚上,所以每个人不要放弃今天。",
"我们看到的从很远星系来的光是在几百万年之前发出的,这样当我们看到宇宙时,我们是在看它的过去。",
"如果只用一种方式了解某样事物,你就不会真正了解它。了解事物真正含义的秘密取决于如何将其与我们所了解的事物相联系。"]
# 2.文章分割
list = []
for temp in data:
list.append(cut_word(temp))
print(list)
# 3.文本特征转换
# 3.1 实例化+转化
transfer = TfidfVectorizer()
new_data = transfer.fit_transform(list)
# 3.2 查看特征名字
names = transfer.get_feature_names()
print("特征名字是:\n", names)
print(new_data.toarray())
print(new_data)
if __name__ == '__main__':
tfidf_demo()
- 公式
- 决策树可视化工具
决策树生成网站
回归决策树API
- 公式
- 例子