【无标题】

模型

数据探索性分析

numpy——python里做数据分析用的最常见的一个包
pandas—— 适合处理数据不大像tabular data这种表
matplotlib——画图工具
from IPython import display——将图片设置成svg文件 ,分辨率更高一些
data = pd.read_csv(‘house_sales.zip’)——读取数据(pandas read CSV文件可以直接读取zip文件,数据大小会小很多)
data.shape——显示读取了多少数据(样本数,列数特征)
data.head()——把前面几行打印出来
null_sum =data.isnull().sum()
data.columns[null_sum < len(data) * 0.3——数据处理,丢掉没用的数据(求和是看每一列有多少数据是没有(用)的。*0.3是特征(列)缺失(没用)数据30%以下可以留下来)
data.drop(columns=data.columns[null_sum > len(data)*0.3],inplace=True)——去除数据
data.dtypes—— 显示数据是什么类型(inplace可以省些内存,但是这个只能跑一次 )
currency = [‘Sold Price’,‘Listed Price’,‘Tax assessed value’,‘Annual tax amount’]
for c in currency:
data[c] = data[c].replace(
r’[KaTeX parse error: Double superscript at position 8: ,-]',' '̲,regex=True).re…,np.nan,regex=True).astype(float)
——转成python转float格式
areas = [‘Total interior livable area’,‘Lot size’]
for c in areas:
acres = data[c].str.contains(‘Acres’) == True
col = data[c].replace(r’\b aqft\b|\b Acres\b|\b,\b’,’ ',regex=True).astype(float)
col[acres] *= 43560
data[c] = col——将sqft acres转换为空,再转换成float
data.describe()——看一下数据长什么样子
abnormal = (data[areas[1]] <10) | (data[areas[1]] > 1e4)
data = data[-abnormal]
sum(abnormal——过滤掉不正常的数据
data[‘Type’].value_counts()[0:20]——种类,前20个
12
types = data[‘Type’].isin([‘类别’,‘类别’])
sns.displot(pd.DataFrame({‘Sold Price’:np.log10(data[types][‘Sold Price’]).,
‘Type’:data
boxplot——对比
correlation——协方差

将数据转成需要的类型:整数,浮点数,字符串,时间类型?

类型,分布,关系

数据清理——提升数据质量,得到比较干净的数据

1,数据相对干净,但是不是模型想要的格式——数据变换
,2,数据对模型不是很友好,模型训练困难——对数据进行特征的提取

outliers——数据不在正常分布的区间
类别值的outlier
类别值的outlier
实数值的outlier
实数值的outlier
Rule violations——一些规则有冲突
Functional dependencies,唯一对应(依赖关系)
denial constraints——完整性,不缺
Pattrern violations——违反一些语法,语义

数据变换(数据变形)

从数据本身的格式转换成机器学习所需要的格式
数据——标注和数据清理——数据变形——抽取数据特征——训练模型
1.最小值——最大值区间
2, Z-score 一个更常见的算法:通过算法使得均值变为0,方差变为1
3,把一列的数据换成是-1到1之间的数据
4,取百分比——log
对图片变换
对商品变换
使用短视频(10s以内),将视频切到感兴趣的部分
对文本
词根化,变成常见的形式——am,is,are变成be。car,cars变成car
tokenization词元化——机器学习算法最小的单元,切成一段一段

特征工程

要有数据
数据预处理——没有标号可以去标;标号里面有很多错误的话,要对它进行清理
数据预处理——看看数据长什么样子;通常来说数据是有很多噪音的,要对数据清洗;将数据变成我们需要的格式;特征工程
数据的质与量要做权衡;
数据质量:
数据的多样性,无偏差,公平性

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

yyqx&xxxx

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值