唐宇迪机器学习进阶第一讲数据特征

唐宇迪机器学习进阶第一讲数据特征

###1数据特征
离散值处理
总结下来就是csv文件数据进行添加索引序号
主要库

import pandas as pd
import numpy as np
from sklearn.preprocessing import LabelEncoder,OneHotEncoder

导入数据

zr = pd.read_csv('D:/2019.9.19/10.6sunday/10.6.csv')
zr[['时间','经度','纬度']]

将其中一列进行编码

rui = LabelEncoder()#实例化
shijian_labels = rui.fit_transform(zr['经度'])
shijian_mappings = {index: label for index, label in enumerate(rui.classes_)}
shijian_mappings

结果:
{0: 119.36778100000001,
1: 119.36778500000001,
2: 119.36781499999999,
3: 119.36784899999999,
4: 119.36786599999999}
第二种方法:

jingdu_le = LabelEncoder()
jingdu_labels = jingdu_le.fit_transform(zr['经度'])
zr['经度_label'] = jingdu_labels
zr_sub = zr[['时间','GPS车速','X轴加速度','Y轴加速度','Z轴加速度','经度','经度_label','纬度']]
#zr_sub = zr
zr_sub
#jingdu_labels
#zr

结果:
在这里插入图片描述
第三种方法

jingdu_dummy_features = pd.get_dummies(zr['经度'])
pd.concat([zr[['时间','经度']],jingdu_dummy_features],axis = 1)

结果:
在这里插入图片描述
对数变换:遇到对数变换就要想数据是否符合正态分布,不符合会做对数变换。(COX-BOX)
##2文本特征
1.词袋模型
首先:要有一个词的库
出现的每个词拿到手后组成大的词的汇表,对每个向量在词汇表中一一对应,记录每个向量中词出现的频率。
缺点:
只考虑词频:是否出现和有几个
前后没有关系
2.N-Grams模型
在词袋模型中一个词的搜索变成两个,三个或更多词的搜索,这样就有了联系。
缺点:
会使判断翻了几个数量级(计算复杂度较高)
出的结果更稀疏了(呈现出的有价值的信息太少)
3.TF-IDF模型
TF:词频 IDF:逆文档频率
TF:一个词在一篇文章中出现的次数除以总词数
IDF:一共有几篇文章中出现了这个词的文章数除以总文章数
TF*1/IDF
4.Similarity特征(余弦相似性)
5.聚类特征(降维)
6.主题模型(唐宇迪老师不推荐)LDA
主题和词的权重
7.词嵌入模型
word2vec(比较不错)
与神经网络结合,维度较高
##图像特征
每个图象都是以矩阵形式进行处理(x,y,z)
x,y像素点;z颜色通道(好像是三原色改变为不同的值图片会出现不同。)

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值