自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(2)
  • 收藏
  • 关注

原创 数据挖掘与分析:完成决策树指标计算,读取数据集,分别计算每一列的信息增益、信息增益比以及gini不纯度

上述代码片段中计算Gini不纯度是针对整个数据集而并非单个特征的每个值,如果要为每个特征的每个唯一值计算Gini不纯度,需要修改上面的gini_impurities字典推导式。另外,由于数据集的不确定性,代码需要随时根据具体情况进行调整。为了完成如题所述要求,我们需要编写一些代码来加载数据,然后实现计算信息增益、信息增益比和Gini不纯度的函数。而计算这些指标通常涉及决策树算法的内部逻辑,scikit-learn库提供了决策树实现,但并未直接提供计算这些指标的函数。因此,我们需要自己编写这些计算逻辑。

2024-04-19 11:21:25 467

原创 Jupyter读取csv文件时编码“utf-8“报错

这个错误通常发生在尝试用UTF-8编码来解码一个不是UTF-8编码的文件时。UTF-8编码的文件应该只包含有效的UTF-8字符序列,但如果文件是用其他编码(如GBK、ISO-8859-1等)保存的,用UTF-8来读取它时就会抛出这个错误。使用文本编辑器(如Notepad++、Sublime Text等)打开文件,然后将其另存为UTF-8编码。如果文件是用其他编码保存的,就需要用正确的编码来读取它。在读取文件时,可以指定编码。如果不确定文件的编码,可以尝试几种常见的编码,或者使用工具来检测文件的编码。

2024-04-19 09:06:22 403

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除