Kittydoll-CSDN博客

原创数据挖掘与分析：完成决策树指标计算，读取数据集，分别计算每一列的信息增益、信息增益比以及gini不纯度

上述代码片段中计算Gini不纯度是针对整个数据集而并非单个特征的每个值，如果要为每个特征的每个唯一值计算Gini不纯度，需要修改上面的gini_impurities字典推导式。另外，由于数据集的不确定性，代码需要随时根据具体情况进行调整。为了完成如题所述要求，我们需要编写一些代码来加载数据，然后实现计算信息增益、信息增益比和Gini不纯度的函数。而计算这些指标通常涉及决策树算法的内部逻辑，scikit-learn库提供了决策树实现，但并未直接提供计算这些指标的函数。因此，我们需要自己编写这些计算逻辑。

2024-04-19 11:21:25 519

原创 Jupyter读取csv文件时编码“utf-8“报错

这个错误通常发生在尝试用UTF-8编码来解码一个不是UTF-8编码的文件时。UTF-8编码的文件应该只包含有效的UTF-8字符序列，但如果文件是用其他编码（如GBK、ISO-8859-1等）保存的，用UTF-8来读取它时就会抛出这个错误。使用文本编辑器（如Notepad++、Sublime Text等）打开文件，然后将其另存为UTF-8编码。如果文件是用其他编码保存的，就需要用正确的编码来读取它。在读取文件时，可以指定编码。如果不确定文件的编码，可以尝试几种常见的编码，或者使用工具来检测文件的编码。

2024-04-19 09:06:22 718

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 数据挖掘与分析：完成决策树指标计算，读取数据集，分别计算每一列的信息增益、信息增益比以及gini不纯度

原创 Jupyter读取csv文件时编码“utf-8“报错

空空如也

空空如也

原创数据挖掘与分析：完成决策树指标计算，读取数据集，分别计算每一列的信息增益、信息增益比以及gini不纯度