Competition08-竞赛实战案例-用户画像类

本文链接：https://blog.csdn.net/qq_43351000/article/details/124043854

竞赛实战案例-用户画像类

一、数据探索

仔细查看每个数据的基本含义，打印出数据，看看是什么样子的
校验数据的正确性，缺失情
查看数据的分布的时候，除了看训练集和测试集的分布是否相似，还要看target的分布情况（describe）
查看数据的时候需要看看是否有重复数据 nunique()
针对属性信息的字段的离散和连续性，分开后统一分析。注意不是是数值的就是连续的，要看实际情况。

1)离散型（还分为数值型和非数值型）
- **针对object类，**离散性变量一般要么是两个，要么是含有字典序，因此可按照字典序对object型变量先编码处理(id）
- 从pd.Serise类型转为numpy.anrray类型需要在pd类型的数据后面加上values
- 缺失值处理，同时为了能够更方便统计，首先做缺失值处理，对于非数值型离散字段可统一用-1进行填充
- 需用describe()函数判断是否有正无穷
- 在进行离散特征编码的时候，需要注意将值转为str，否则无法使用sort进行排序
2）连续型
- 查看缺失数据和无穷数据
3）时间类型
- 关于时间的处理上，可以按照一些字符串操作提取相应的信息，比如直接提取年份、月份、日期和小时点等等
- 还有一种相对万能可适用于各种场景的办法就是使用unix时间戳，可以灵活用于各种转换与计算
- 时间段（上午、下午、晚上、凌晨） 其实就是获取时间后整除6 //6
- 休息日or工作日 datetime.strptime(x.split(" ")[0], "%Y-%m-%d").weekday()# weekday()返回0-6 分别代表周一到周日这里整除5，不是零就是一。这两的datetime.strptime()就是将字符转为data对象

二、特征工程

1. 通用特征

在进行特征编码的时候，需要将train和test一起编码
删除数据文件之间的冗余数据
- 可以考虑用set(new_transaction.columns) & set(merchant.columns)这种形式删除多余的列
- 用.drop_duplicates()函数删除重复的行，非原地删除

2. 业务特征

利用pandas工具的groupby进行统计，对机器性能要求比价高。（为了pandas统计需要，不需要再对缺失值以及离散字段进行转化了？？？）
利用diff()可以求两次行为之间的间隔时间。
记性特征统计的时候需要分裂了统计
- 连续性数值变量需要统计如下变量：['nunique', 'mean', 'min', 'max','var','skew', 'sum'] var方差 skew偏态分布
- 离散型变量需要统计如下变量：['nunique']
- id类别：['size', 'count']
合理使用df.groupby().agg([...]) 先进行分组，然后对分组后的部分列进行聚合参考pandas group分组与agg聚合。

3. 文本特征

CountVectorizer是属于常见的特征数值计算类，是一个文本特征提取方法。对于每一个训练文本，它只考虑每种词汇在该训练文本中出现的频率。
TfidfVectorizer可以把原始文本转化为tf-idf的特征矩阵，从而为后续的文本相似度计算。

上述两种方式实际上就是通过类统计词频的方式，没一句话都会由一个长度为单词表大小，每个位置代表单词的频率（CounterVectorizer）或者idf值（TfidfVectorizer）组成。即用向量表示文本。

在读取数据的时候，也要关注内存情况，可以使用del，gc.collect()释放内存。

三、模型训练

1. 随机森林

1.1 读取数据

读取数据后，要去除重复列，拼接特征列。这里拼接特征一般用merge函数，记得用fillna()进行确实填充。

1.2 特征选取

把id、target这些列去掉，这些不算特征。
去除缺失值比较多的特征
进行pearson相关性计算，注意这里使用pearson针对的时线性相关，即判断两个变量之间的相关性。因为不论正负相关，其实都是相关的，所以要取绝对值。
- 输出格式为Dataframe类型，如图，所以取.values[0][1] ，就是想要的相关系数。
取top300的特征进行建模，具体数量可选