踩实底子|每日学习|02-特征工程和文本特征提取【上】

最新推荐文章于 2024-01-25 01:54:26 发布

云胡实验室

最新推荐文章于 2024-01-25 01:54:26 发布

阅读量241

点赞数

分类专栏：数据挖掘与分析搞算法不要面子的啊文章标签：机器学习人工智能每日学习特征工程 one-hot

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_28930251/article/details/109682497

版权

本文探讨了机器学习中的特征工程，强调其在数据预处理中的重要性。介绍了数据集的构成，特别是CSV和TXT格式，以及不使用MySQL的原因。接着讨论了特征工程的概念，并通过实例展示了如何使用sklearn进行字典特征数据抽取，包括DictVectorizer和one-hot编码的过程。

摘要由CSDN通过智能技术生成

halo！我又来挖坑了，放着草稿箱的若干个深坑没有管，跟进这部分的学习，是为了安心毕业和强大技术栈，从应用角度再次学习机器学习。

这部分是机器学习中的第二个部分特征工程和文本特征提取，在天池、Kaggle比赛的排名差异中，往往争得你死我活的地方不是选取牛plus的算法，而是在特征工程阶段大下苦工。那么今天就把这部分的引入介绍一下，大块的学习放在周六日两天来学。希望这次开始，能够重启每日更博学习、精进自我的征程。

这块学习分五个part：，主要是数据集组成、特征工程定义，还有字典特征数据抽取，文本特征抽取以及中文问题，和最后的TF-DF分析问题。这部分在我的论文也算是核心部分，虽然不是主要研究机器学习，工程技术也需要在整个实验落地中发挥非常重要的桥梁角色。所以学习过程中，更加强调理解和实际操作的相似性，而不是技术理论的强化。

目录

1.数据集的构成

3.字典特征数据抽取

sklearn特征抽取API

机器学习确实在某种程度上减轻人力，用计算的方式降低工作量，上一讲的内容。

1.数据集的构成

（一般）存储形式：csv，txt....

为什么不存MySQL（传统数据库）？

性能瓶颈，字段没有办法满足，读取速度跟不上（数据大情况）；
格式不太符合机器学习数据要求格式

->pandas为啥快？读取工具，numpy（GIL锁），多线程问题

主要有两种，可用数据集有这些：

可以看出，不同来源的数据特点也不尽相同，scikit-learn作为大多数入门学者的首选，拥有数据量较小的特点，而UCI和kaggle则是偏向于应用实际类、

网址如下：

kaggle： https://www.kaggle.com/datasets
UCI数据集网址：http:/

最低0.47元/天解锁文章

云胡实验室

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。