唐宇迪机器学习进阶第一讲数据特征

最新推荐文章于 2020-11-25 21:03:01 发布

不爱刷题的工程师不是好coder

最新推荐文章于 2020-11-25 21:03:01 发布

阅读量315

点赞数 2

分类专栏：机器学习进阶文章标签：数据特征

本文链接：https://blog.csdn.net/weixin_42065600/article/details/102249241

版权

机器学习进阶专栏收录该内容

1 篇文章 0 订阅

订阅专栏

唐宇迪机器学习进阶第一讲数据特征

###1数据特征
离散值处理
总结下来就是csv文件数据进行添加索引序号
主要库

import pandas as pd
import numpy as np
from sklearn.preprocessing import LabelEncoder,OneHotEncoder

导入数据

zr = pd.read_csv('D:/2019.9.19/10.6sunday/10.6.csv')
zr[['时间','经度','纬度']]

将其中一列进行编码

rui = LabelEncoder()#实例化
shijian_labels = rui.fit_transform(zr['经度'])
shijian_mappings = {index: label for index, label in enumerate(rui.classes_)}
shijian_mappings

结果：
{0: 119.36778100000001,
1: 119.36778500000001,
2: 119.36781499999999,
3: 119.36784899999999,
4: 119.36786599999999}
第二种方法：

jingdu_le = LabelEncoder()
jingdu_labels = jingdu_le.fit_transform(zr['经度'])
zr['经度_label'] = jingdu_labels
zr_sub = zr[['时间','GPS车速','X轴加速度','Y轴加速度','Z轴加速度','经度','经度_label','纬度']]
#zr_sub = zr
zr_sub
#jingdu_labels
#zr

结果：
在这里插入图片描述
第三种方法

jingdu_dummy_features = pd.get_dummies(zr['经度'])
pd.concat([zr[['时间','经度']],jingdu_dummy_features],axis = 1)

结果：
在这里插入图片描述
对数变换：遇到对数变换就要想数据是否符合正态分布，不符合会做对数变换。（COX-BOX）
##2文本特征
1.词袋模型
首先：要有一个词的库
出现的每个词拿到手后组成大的词的汇表，对每个向量在词汇表中一一对应，记录每个向量中词出现的频率。
缺点：
只考虑词频：是否出现和有几个
前后没有关系
2.N-Grams模型
在词袋模型中一个词的搜索变成两个，三个或更多词的搜索，这样就有了联系。
缺点：
会使判断翻了几个数量级（计算复杂度较高）
出的结果更稀疏了（呈现出的有价值的信息太少）
3.TF-IDF模型
TF：词频 IDF：逆文档频率
TF：一个词在一篇文章中出现的次数除以总词数
IDF：一共有几篇文章中出现了这个词的文章数除以总文章数
TF*1/IDF
4.Similarity特征（余弦相似性）
5.聚类特征（降维）
6.主题模型（唐宇迪老师不推荐）LDA
主题和词的权重
7.词嵌入模型
word2vec（比较不错）
与神经网络结合，维度较高
##图像特征
每个图象都是以矩阵形式进行处理（x,y,z）
x,y像素点；z颜色通道（好像是三原色改变为不同的值图片会出现不同。）

不爱刷题的工程师不是好coder

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
唐宇迪机器学习进阶第一讲数据特征

唐宇迪机器学习进阶第一讲数据特征###1数据特征离散值处理总结下来就是csv文件数据进行添加索引序号主要库import pandas as pdimport numpy as npfrom sklearn.preprocessing import LabelEncoder,OneHotEncoder导入数据zr = pd.read_csv('D:/2019.9.19/10.6s...
复制链接

扫一扫

专栏目录