Titanic数据集：仅用名字列就取得0.8的正确率

最新推荐文章于 2022-01-20 10:59:46 发布

数学工具构造器

最新推荐文章于 2022-01-20 10:59:46 发布

阅读量692

点赞数 1

分类专栏： automl NLP

本文链接：https://blog.csdn.net/TQCAI666/article/details/105899323

版权

文章目录

前言
- 表格机器学习的4类特征
- text 特征组
数据处理
建模
- sklearn
- - TF-IDF
  - NMF
  - TruncatedSVD
- gensim
- - LDA
  - LSI
  - RP
  - HDP

前言

表格机器学习的4类特征

最近在思考表格机器学习，或者说对表格数据、结构化数据的有监督机器学习的工作流。

我认为在大部分场景下，大概有4类特征：

categorical
numerical
date
text

text 特征组

最近在调研text特征组。如果一个表格中有一列全是文本，其实这个文本是可以包含很多信息的，可以用TFIDF提取重要度，然后用主题模型建模或者用矩阵分解的方法进行降维。TFIDF的输出是一个稀疏矩阵，一般不能直接丢给学习器，最好做个降维，其实降维后信息的损失并不大，甚至对于模型还有提升的效果。

数据处理

载入数据

import pandas as pd
df=pd.read_csv("train_classification.csv")
name=df.Name

读入数据，只取出名字列

def clean_text(text):
    text=text.replace("\n"," ").replace("\r"," ")
    punc_list='''!"'#$&()*+,-./:;<=>?@[\]^_{|}~`0123456789'''
    t=str.maketrans(dict.fromkeys(punc_list," "))
    text=text.translate(t)
    return text

数据清洗

name=name.

最低0.47元/天解锁文章

数学工具构造器

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Titanic数据集：仅用名字列就取得0.8的正确率

文章目录前言表格机器学习的4类特征text 特征组数据处理载入数据数据清洗分词删除低频词建模sklearnTF-IDFNMFTruncatedSVDgensimLDALSIRPHDP前言表格机器学习的4类特征最近在思考表格机器学习，或者说对表格数据、结构化数据的有监督机器学习的工作流。我认为在大部分场景下，大概有4类特征：categoricalnumericaldatetext...
复制链接

扫一扫