模型
数据探索性分析
numpy——python里做数据分析用的最常见的一个包
pandas—— 适合处理数据不大像tabular data这种表
matplotlib——画图工具
from IPython import display——将图片设置成svg文件 ,分辨率更高一些
data = pd.read_csv(‘house_sales.zip’)——读取数据(pandas read CSV文件可以直接读取zip文件,数据大小会小很多)
data.shape——显示读取了多少数据(样本数,列数特征)
data.head()——把前面几行打印出来
null_sum =data.isnull().sum()
data.columns[null_sum < len(data) * 0.3——数据处理,丢掉没用的数据(求和是看每一列有多少数据是没有(用)的。*0.3是特征(列)缺失(没用)数据30%以下可以留下来)
data.drop(columns=data.columns[null_sum > len(data)*0.3],inplace=True)——去除数据
data.dtypes—— 显示数据是什么类型(inplace可以省些内存,但是这个只能跑一次 )
currency = [‘Sold Price’,‘Listed Price’,‘Tax assessed value’,‘Annual tax amount’]
for c in currency:
data[c] = data[c].replace(
r’[KaTeX parse error: Double superscript at position 8: ,-]',' '̲,regex=True).re…,np.nan,regex=True).astype(float)
——转成python转float格式
areas = [‘Total interior livable area’,‘Lot size’]
for c in areas:
acres = data[c].str.contains(‘Acres’) == True
col = data[c].replace(r’\b aqft\b|\b Acres\b|\b,\b’,’ ',regex=True).astype(float)
col[acres] *= 43560
data[c] = col——将sqft acres转换为空,再转换成float
data.describe()——看一下数据长什么样子
abnormal = (data[areas[1]] <10) | (data[areas[1]] > 1e4)
data = data[-abnormal]
sum(abnormal——过滤掉不正常的数据
data[‘Type’].value_counts()[0:20]——种类,前20个
12
types = data[‘Type’].isin([‘类别’,‘类别’])
sns.displot(pd.DataFrame({‘Sold Price’:np.log10(data[types][‘Sold Price’]).,
‘Type’:data
boxplot——对比
correlation——协方差
将数据转成需要的类型:整数,浮点数,字符串,时间类型?
类型,分布,关系
数据清理——提升数据质量,得到比较干净的数据
1,数据相对干净,但是不是模型想要的格式——数据变换
,2,数据对模型不是很友好,模型训练困难——对数据进行特征的提取
outliers——数据不在正常分布的区间
类别值的outlier
实数值的outlier
Rule violations——一些规则有冲突
Functional dependencies,唯一对应(依赖关系)
denial constraints——完整性,不缺
Pattrern violations——违反一些语法,语义
数据变换(数据变形)
从数据本身的格式转换成机器学习所需要的格式
数据——标注和数据清理——数据变形——抽取数据特征——训练模型
1.最小值——最大值区间
2, Z-score 一个更常见的算法:通过算法使得均值变为0,方差变为1
3,把一列的数据换成是-1到1之间的数据
4,取百分比——log
对图片变换
对商品变换
使用短视频(10s以内),将视频切到感兴趣的部分
对文本
词根化,变成常见的形式——am,is,are变成be。car,cars变成car
tokenization词元化——机器学习算法最小的单元,切成一段一段
特征工程
要有数据
数据预处理——没有标号可以去标;标号里面有很多错误的话,要对它进行清理
数据预处理——看看数据长什么样子;通常来说数据是有很多噪音的,要对数据清洗;将数据变成我们需要的格式;特征工程
数据的质与量要做权衡;
数据质量:
数据的多样性,无偏差,公平性