文章目录
前言
表格机器学习的4类特征
最近在思考表格机器学习,或者说对表格数据、结构化数据的有监督机器学习的工作流。
我认为在大部分场景下,大概有4类特征:
- categorical
- numerical
- date
- text
text 特征组
最近在调研text
特征组。如果一个表格中有一列全是文本,其实这个文本是可以包含很多信息的,可以用TFIDF提取重要度,然后用主题模型建模或者用矩阵分解的方法进行降维。TFIDF的输出是一个稀疏矩阵,一般不能直接丢给学习器,最好做个降维,其实降维后信息的损失并不大,甚至对于模型还有提升的效果。
数据处理
载入数据
import pandas as pd
df=pd.read_csv("train_classification.csv")
name=df.Name
读入数据,只取出名字列
def clean_text(text):
text=text.replace("\n"," ").replace("\r"," ")
punc_list='''!"'#$&()*+,-./:;<=>?@[\]^_{|}~`0123456789'''
t=str.maketrans(dict.fromkeys(punc_list," "))
text=text.translate(t)
return text
数据清洗
name=name.