踩实底子|每日学习|02-特征工程和文本特征提取【上】

本文探讨了机器学习中的特征工程,强调其在数据预处理中的重要性。介绍了数据集的构成,特别是CSV和TXT格式,以及不使用MySQL的原因。接着讨论了特征工程的概念,并通过实例展示了如何使用sklearn进行字典特征数据抽取,包括DictVectorizer和one-hot编码的过程。
摘要由CSDN通过智能技术生成

halo!我又来挖坑了,放着草稿箱的若干个深坑没有管,跟进这部分的学习,是为了安心毕业和强大技术栈,从应用角度再次学习机器学习。

这部分是机器学习中的第二个部分  特征工程和文本特征提取,在天池、Kaggle比赛的排名差异中,往往争得你死我活的地方不是选取牛plus的算法,而是在特征工程阶段大下苦工。那么今天就把这部分的引入介绍一下,大块的学习放在周六日两天来学。希望这次开始,能够重启每日更博学习、精进自我的征程。

这块学习分五个part:,主要是数据集组成、特征工程定义,还有字典特征数据抽取,文本特征抽取以及中文问题,和最后的TF-DF分析问题。这部分在我的论文也算是核心部分,虽然不是主要研究机器学习,工程技术也需要在整个实验落地中发挥非常重要的桥梁角色。所以学习过程中,更加强调理解和实际操作的相似性,而不是技术理论的强化。



目录

1.数据集的构成

2.特征工程

3.字典特征数据抽取

sklearn特征抽取API

 


机器学习确实在某种程度上减轻人力,用计算的方式降低工作量,上一讲的内容。

1.数据集的构成

(一般)存储形式:csv,txt....

为什么不存MySQL(传统数据库)?

  1. 性能瓶颈,字段没有办法满足,读取速度跟不上(数据大情况);
  2. 格式不太符合机器学习数据要求格式

->pandas为啥快?读取工具,numpy(GIL锁),多线程问题

主要有两种,可用数据集有这些:

可以看出,不同来源的数据特点也不尽相同,scikit-learn作为大多数入门学者的首选,拥有数据量较小的特点,而UCI和kaggle则是偏向于应用实际类、

网址如下:

  • kaggle: https://www.kaggle.com/datasets
  • UCI数据集网址:http:/
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值