机器学习笔记-决策树

林大帅6688

于 2022-09-28 08:00:34 发布

阅读量103

点赞数

本文链接：https://blog.csdn.net/weixin_41732253/article/details/127009330

版权

机器学习笔记-决策树

决策树分类原理

决策树分类原理

信息增益公式

在这里插入图片描述

例子1-信息增益和信息增益熵
例子2-信息增益和信息增益熵

信息增益率

公式

请添加图片描述

例子
C4.5算法流程

请添加图片描述

基尼系数

公式
例子

总结

在这里插入图片描述

cart剪枝-SCI

在这里插入图片描述

预剪枝：边看边剪枝，如果可以提高精度，那么就划分。
后剪枝

特征提取API

字典特征提取API

在这里插入图片描述

代码

from sklearn.feature_extraction import DictVectorizer

def dict_demo():
    """
    字典特征提取
    :return: None
    """
    # 1.获取数据
    data = [{'city': '北京', 'temperature': 100},
            {'city': '上海', 'temperature': 60},
            {'city': '深圳', 'temperature': 30}]

    # 2.字典特征提取
    # 2.1 实例化
    transfer = DictVectorizer(sparse=True)

    # 2.2 转换
    new_data = transfer.fit_transform(data)
    print(new_data)

    # 2.3 获取具体属性名
    names = transfer.get_feature_names()
    print("属性名字是:\n", names)
    
if __name__ == '__main__':
    dict_demo() #字典特征提取

结果；sparse=True，false；可以提高效率节省内存

文本特征提取API

英文文本

conda安装

conda install -c conda-forge jieba

conda环境路径切换
代码

from sklearn.feature_extraction import DictVectorizer
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer

def english_count_demo():
    """
    文本特征提取-英文
    :return: None
    """
    # 获取数据
    data = ["life is is short,i like python",
            "life is too long,i dislike python"]

    # 文本特征转换
    # transfer = CountVectorizer(sparse=True)  # 注意:没有sparse这个参数
    transfer = CountVectorizer(stop_words=["dislike"])#stop_words=["dislike"]停止这个单词的提取
    new_data = transfer.fit_transform(data)

    # 查看特征名字
    names = transfer.get_feature_names()

    print("特征名字是:\n", names)
    print(new_data.toarray()) #这里转成二维数组
    print(new_data)
    
if __name__ == '__main__':
    english_count_demo()

结果；没有sparse这个参数

在这里插入图片描述

中文文本

在这里插入图片描述

代码

from sklearn.feature_extraction import DictVectorizer
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
import jieba #结巴分词

def chinese_count_demo1():
    """
    文本特征提取-中文
    :return: None
    """
    # 获取数据
    data = ["人生 苦短，我 喜欢 Python", "生活 太长久，我 不喜欢 Python"]

    # 文本特征转换
    transfer = CountVectorizer()
    new_data = transfer.fit_transform(data)

    # 查看特征名字
    names = transfer.get_feature_names()

    print("特征名字是:\n", names)
    print(new_data.toarray())
    print(new_data)

def cut_word(text):
    """
    中文分词
    :param text:
    :return:
    """
    # ret = " ".join(list(jieba.cut(text)))
    # print(ret)
    return " ".join(list(jieba.cut(text)))

def chinese_count_demo2():
    """
    文本特征提取-中文
    :return: None
    """
    # 1.获取数据
    data = ["一种还是一种今天很残酷，明天更残酷，后天很美好，但绝对大部分是死在明天晚上，所以每个人不要放弃今天。",
            "我们看到的从很远星系来的光是在几百万年之前发出的，这样当我们看到宇宙时，我们是在看它的过去。",
            "如果只用一种方式了解某样事物，你就不会真正了解它。了解事物真正含义的秘密取决于如何将其与我们所了解的事物相联系。"]

    # 2.文章分割
    list = []
    for temp in data:
        list.append(cut_word(temp))
    print(list)

    # 3.文本特征转换
    # 3.1 实例化+转化
    transfer = CountVectorizer(stop_words=["一种", "今天"])
    new_data = transfer.fit_transform(list)

    # 3.2 查看特征名字
    names = transfer.get_feature_names()

    print("特征名字是:\n", names)
    print(new_data.toarray())
    print(new_data)
    
if __name__ == '__main__':
    chinese_count_demo1()
    # cut_word("我爱你python, 人生苦读,我用python")
    chinese_count_demo2()

结果

Tf-idf

用以评估一个字词对于一个文件集或者一个语料库中的其中一份文件的重要程度。
代码

from sklearn.feature_extraction import DictVectorizer
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
import jieba

def tfidf_demo():
    """
    文本特征提取-中文
    :return: None
    """
    # 1.获取数据
    data = ["一种还是一种今天很残酷，明天更残酷，后天很美好，但绝对大部分是死在明天晚上，所以每个人不要放弃今天。",
            "我们看到的从很远星系来的光是在几百万年之前发出的，这样当我们看到宇宙时，我们是在看它的过去。",
            "如果只用一种方式了解某样事物，你就不会真正了解它。了解事物真正含义的秘密取决于如何将其与我们所了解的事物相联系。"]

    # 2.文章分割
    list = []
    for temp in data:
        list.append(cut_word(temp))
    print(list)

    # 3.文本特征转换
    # 3.1 实例化+转化
    transfer = TfidfVectorizer()
    new_data = transfer.fit_transform(list)

    # 3.2 查看特征名字
    names = transfer.get_feature_names()

    print("特征名字是:\n", names)
    print(new_data.toarray())
    print(new_data)

if __name__ == '__main__':
    tfidf_demo()