10.21 学习记录

最新推荐文章于 2024-07-25 22:24:14 发布

tuyihan

最新推荐文章于 2024-07-25 22:24:14 发布

阅读量26

点赞数

文章标签：学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/tuyihan/article/details/133966418

版权

1.数据导入

2.数据处理

①缺失处理--替换（众数）

--删除

参考如下模型，对比不同处理方法的准确率·，选取更高的。

a.KNN算法
以某个数据为中心,分析离其最近的K个邻居的类别.
b.SVM算法
找一分割线W•X+b =0把两类分开，区分两个类别并且能使间隔最大。
c.AdaBoost算法
是一个简单的弱分类算法提升过程。通过不断的训练提高对数据的分类能力。将各个训练得到的弱分类器组合成强分类器。误差率低的弱分类器在最终分类器中占的比例较大。
d.随机森林算法
用随机的方式建立一个森林，每一棵决策树之间没有关联。输入一个新的样本,让森林中的每一棵决策树分别进行一下判断。哪一类被选择最多就预测这个样本为那一类。

以删除为例：

对于含有缺失值数据占比较小的字段直接删除这些缺失值所在的数据--删除含有'unknown'的行

对于缺失值占比较大的字段使用不含缺失值的数据作为训练集，使用随机森林预测缺失值并填充。--删除unknown大于30%的列

②符号替换

③数据标准化--将数值投射到[0,1]

④样本去重

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
10.21 学习记录

是一个简单的弱分类算法提升过程。通过不断的训练提高对数据的分类能力。误差率低的弱分类器在最终分类器中占的比例较大。输入一个新的样本,让森林中的每一棵决策树分别进行一下判断。对于缺失值占比较大的字段使用不含缺失值的数据作为训练集，使用随机森林预测缺失值并填充。--删除unknown大于30%的列。对于含有缺失值数据占比较小的字段直接删除这些缺失值所在的数据--删除含有'unknown'的行。参考如下模型，对比不同处理方法的准确率·，选取更高的。以某个数据为中心,分析离其最近的K个邻居的类别.
复制链接

扫一扫

tuyihan CSDN认证博客专家 CSDN认证企业博客

码龄1年

21: 原创

153万+: 周排名

8万+: 总排名

5803: 访问

: 等级

310: 积分

57: 粉丝

100: 获赞

15: 评论

61: 收藏

私信

关注

热门文章

最新评论

隐私计算第一期数据可信流通，从运维信任到技术信任
CSDN-Ada助手: 恭喜用户第20篇博客发布成功！标题中提到的隐私计算和数据可信流通是当下技术领域的热点话题，您的文章一定对读者有很大的启发和帮助。希望您能继续保持创作的热情和精神，探索更深层次的技术内容，为读者带来更多的价值和启发。祝您在未来的创作中不断进步，谦卑地表达自己的见解，让更多的人受益于您的分享！
第二节作业
CSDN-Ada助手: 恭喜你完成了第二篇博客！持续创作是非常不易的，你的努力和坚持让我十分钦佩。接下来，我建议你可以尝试挑战一些不同类型或者更深入的话题，让读者更加期待你的作品。加油！期待你的下一篇作品。
第三节作业
CSDN-Ada助手: 恭喜您发布了第三节作业！坚持创作是非常了不起的，您的努力和坚持定会有所回报。接下来，建议您可以尝试更多不同的题材和风格，挑战自己，不断突破自己的创作边界。期待您的更多精彩作品！加油！
第4节作业
CSDN-Ada助手: 恭喜您完成了第16篇博客《第4节作业》，持续创作是非常了不起的事情！您的努力和坚持让我十分钦佩。接下来，或许可以考虑扩大一下话题范围，尝试一些新的写作风格，让读者有更多的惊喜和启发。期待您的下一篇作品，继续为我们带来更多精彩内容！祝您写作顺利，创意无限！
第5节作业
CSDN-Ada助手: 恭喜您写完了第17篇博客《第5节作业》，不断坚持创作是非常了不起的事情。希望您能继续保持这样的创作热情，不断提升自己的写作水平。或许下一步可以尝试探索更多不同题材的内容，拓宽自己的写作视野，让读者在您的博客中获得更多启发和乐趣。期待您更多精彩的作品！

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。