2020-09-08机器学习算法基础第一天

最新推荐文章于 2022-12-28 11:41:28 发布

技术总监刘先生

最新推荐文章于 2022-12-28 11:41:28 发布

阅读量227

点赞数

分类专栏：机器学习文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/karl_Marco/article/details/108464358

版权

机器学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

机器学习算法基础

文章目录

机器学习理解
数据集的组成
一、特征工程
- 1.特征工程什么
- 2.字典特征的抽取
- 3.文本特征的抽取以及中文的问题
- 4.tf-idf抽取文本特征
二、特征预处理
- 1.归一化
- 2.标准化
- 3.缺失值
总结

机器学习

简单理解:机器在一堆数据中学习规律的过程,通过训练,学习到函数中的参数,保存模型,通过训练好的模型,来预测未知的事情

数据集的组成

一般都是csv文件类型,numpy释放了gil锁,panda读取文件就非常快,真正的多线程,数据主要由特征值和目标值组成,比如要做一个疾病分类,症状就是特征,咳嗽就是特征,感冒疾病就是目标值

一、特征工程

1.特征工程是什么

特征工程是把一些不规则的数据,转换成可以用模型训练的数据,从而提高模型的准确度.

2.字典特征的抽取

把字典中的字符串数据进行one-hot编码,把每一种不重复的特征归为一类,one-hot,就是出现的为1,其它列都为0.

sklearn api

3.文本特征的抽取以及中文的问题

1.文本特征的抽取

1. 统计所有文章中出现的词,重复的只看做一次,词的列表

2.在每一篇文章里面统计每个词出现的次数,单个字不统计

3.遇到有中文通过jieba分词,在进行特征抽取

4.tf-idf抽取文本特征

tf:词的频率就是词在文章中出现的次数

idf:逆文档频率

一个词在一篇文章出现很多,在另一篇文章出现很少,就可以做分类

二、特征预处理

1.归一化

特征预处理:通过特定的统计方法,将数据转换成算法要求的数据

归一化:通过对原始数据的变换,把数据映射到[0,1]之间

计算公式

归一化计算方法举例

归一化的作用:某个特征对结果影响不大

归一化的缺点:对异常点影响很大,鲁棒性不好,就是稳定性差,最大值和最小值是变化的

2.标准化

标准化:通过对原始数据进行变换,把数据变换成均值为0,方差为1的范围之内

标准化和归一化的区别

标准化总结

标准化适合现代嘈杂大数据环境

2.缺失值

缺失值处理的两种方法

要么删除

要么填补

建议用填补的方式

按照特征列去填补

总结

特征处理方式

技术总监刘先生

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
2020-09-08机器学习算法基础第一天

机器学习算法基础文章目录机器学习理解数据集的组成一、特征工程 1.特征工程什么 2.字典特征的抽取 3.文本特征的抽取以及中文的问题 4.tf-idf抽取文本特征二、特征预处理 1.归一化 2.标准化 3.缺失值总结机器学习简单理解:机器在一堆数据中学习规律的过程,通过训练,学习到函数中的参数,保存模型,通过训练好的模型,来预测未知的事情数据集的组成 ...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。