特征工程
目的
1.对于特征进行进一步分析,并对于数据进行处理
2.完成对于特征工程的分析,并对于数据进行一些图表或者文字总结并打卡。
主要内容
常见的特征工程包括:
1.异常处理
2.特征归一化/标准化
3.数据分桶
4.缺失值处理
5. 特征构造
6. 特征筛选
7.降维
代码
1.导入数据
import pandas as pd
import numpy as np
import matplotlib
import matplotlib.pyplot as plt
import seaborn as sns
train_df = pd.read_csv(r'./data/train.csv', sep = ' ')
test_df = pd.read_csv(r'./data/testA.csv', sep = ' ')
print(train_df.shape)
print(test_df.shape)
识别异常值
异常值指的是在数据集中存在的不合理的值,也叫离群点。结合实际意义或许能更好地理解,比如人年龄为负数,羽毛的重量为1吨等,这些都属于异常值。