【无标题】_data = data[-abnormal]-CSDN博客

本文链接：https://blog.csdn.net/qq_54631254/article/details/122888092

模型

数据探索性分析

numpy——python里做数据分析用的最常见的一个包
pandas—— 适合处理数据不大像tabular data这种表
matplotlib——画图工具
from IPython import display——将图片设置成svg文件，分辨率更高一些
data = pd.read_csv(‘house_sales.zip’)——读取数据（pandas read CSV文件可以直接读取zip文件，数据大小会小很多）
data.shape——显示读取了多少数据（样本数，列数特征）
data.head()——把前面几行打印出来
null_sum =data.isnull().sum()
data.columns[null_sum < len(data) * 0.3——数据处理，丢掉没用的数据（求和是看每一列有多少数据是没有（用）的。*0.3是特征（列）缺失（没用）数据30%以下可以留下来）
data.drop(columns=data.columns[null_sum > len(data)*0.3],inplace=True)——去除数据
data.dtypes—— 显示数据是什么类型(inplace可以省些内存，但是这个只能跑一次 )
currency = [‘Sold Price’,‘Listed Price’,‘Tax assessed value’,‘Annual tax amount’]
for c in currency:
data[c] = data[c].replace(
r’[ $KaTeX parse error: Double superscript at position 8: ,-]',' '̲,regex=True).re\dots$ ,np.nan,regex=True).astype(float)
——转成python转float格式
areas = [‘Total interior livable area’,‘Lot size’]
for c in areas:
acres = data[c].str.contains(‘Acres’) == True
col = data[c].replace(r’\b aqft\b|\b Acres\b|\b,\b’,’ ',regex=True).astype(float)
col[acres] *= 43560
data[c] = col——将sqft acres转换为空，再转换成float
data.describe()——看一下数据长什么样子
abnormal = (data[areas[1]] <10) | (data[areas[1]] > 1e4)
data = data[-abnormal]
sum(abnormal——过滤掉不正常的数据
data[‘Type’].value_counts()[0:20]——种类，前20个
12
types = data[‘Type’].isin([‘类别’,‘类别’])
sns.displot(pd.DataFrame({‘Sold Price’:np.log10(data[types][‘Sold Price’]).,
‘Type’:data
boxplot——对比
correlation——协方差

将数据转成需要的类型：整数，浮点数，字符串，时间类型？

类型，分布，关系

数据清理——提升数据质量，得到比较干净的数据

1，数据相对干净，但是不是模型想要的格式——数据变换
,2，数据对模型不是很友好，模型训练困难——对数据进行特征的提取

outliers——数据不在正常分布的区间
类别值的outlier

实数值的outlier

Rule violations——一些规则有冲突
Functional dependencies，唯一对应（依赖关系）
denial constraints——完整性，不缺
Pattrern violations——违反一些语法，语义

数据变换（数据变形）

从数据本身的格式转换成机器学习所需要的格式
数据——标注和数据清理——数据变形——抽取数据特征——训练模型
1.最小值——最大值区间
2， Z-score 一个更常见的算法：通过算法使得均值变为0，方差变为1
3，把一列的数据换成是-1到1之间的数据
4，取百分比——log
对图片变换
对商品变换
使用短视频(10s以内)，将视频切到感兴趣的部分
对文本
词根化，变成常见的形式——am,is,are变成be。car，cars变成car
tokenization词元化——机器学习算法最小的单元,切成一段一段