特征工程(总结)

本文详细介绍了特征工程的各个环节,包括数据清洗、文本数据处理、数值型数据处理、特征选择及降维方法。内容涵盖了预处理、缺失值处理、文本数据的词袋法、TF-IDF、数值数据的标准化、归一化、多项式扩展等技术,并讨论了特征选择的策略和降维技术如PCA和LDA。
摘要由CSDN通过智能技术生成

一、数据清洗

    1.1 预处理

    1)数据处理工具的选择: 一般选用数据库处理和Python等工具处理。

    2)查看数据的元数据以及数据特征

    1.2 缺省值处理(删除、补全)

     缺省值处理的一般步骤:确定缺省值范围、去除不需要的字段、填充缺省值内容(经验值、均值、中位数、众数、推测值)、重新获取数据。

    1.3 格式、内容错误的数据(修改、删除)

    1.4 逻辑错误的数据(修改、删除)

    1.5 不需要的数据(删除)

    1.6 关联性验证

二、文本数据处理

    1、词袋法、词集法

    1)词袋法。词袋法计算文档中每个单词出现的次数(词频)。

    2)词集法。词集法是判断单词是否出现在文档中,出现就为1,否则为0。它是考虑到文档次数相差太大的时候,词袋法不适用的情况。

    2、TF-IDF(词频-逆文档频率)

    1)词频-逆文档频率。

    TF-IDF认为:单词的重要性随着它在文本中出现的次数成正比增加,也就是单词的出现次数越多,该单词对于文本的重要性就越高。同时单词的重要性会随着在语料库中出现的频率成反比下降,也就是单词在语料库中出现的频率越高,表示该单词与常见,也就是该单词对于文本的重要性越低。

    2)计算公式

    TF-IDF=TF*IDF

    其中,TF=文档中词出现的次数/文档中词的总个数;IDF=log(总的文档个数/出现该词的文档数量+1),这里的-1操作主要是防止分母为0(也就是说出现该词的文档数量为0)

    3)WordToVictor(直接转化为词向量)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值