第1章:特征工程

相关博客:
https://blog.csdn.net/qq_28409193/article/details/88057629

1 特征归一化
为什么要对数值型类型的特征做归一化?

本章主要讨论两种常用的数据类型:

  • 结构化数据。包含数值型、类别型两种基本型
  • 非结构化数据。包括文本、图像、音频、视频数据

为了消除数据特征之间的量纲影响,需要进行归一化,使得不同指标之间具有可比性。

常有两种方法进行归一化:

  • 线性函数归一化,公式如下:
    X n o r m = X − X m i n X m a x − X m i n X_{norm} = \frac {X -X_{min} } {X_{max} - X_{min}} Xnorm=XmaxXminXXmin
  • 零均值归一化,公式如下:特征值的均值 μ \mu μ,标准差 σ \sigma σ
    z = x − μ σ z = \frac{x-\mu}{\sigma} z=σxμ
2 类别型特征

主要指性别、血型等只在有限取值的特征。类别型原始特征原始输入通常是字符串形式,除了决策树等少数模型能直接处理字符串形式的输入,对于逻辑回归、支持向量机等模型来说,类别型特征必须经过处理成数值型特征才能正确工作。

  • 序号编码(Ordinal Encoding)
  • 独热编码(One-hot Encoding)
  • 二进制编码(Binary Encoding)

问题:再对数据进行预处理时,应该怎样处理类别型特征?

  • 序号编码:通常用于处理类别间具有大小关系的数据。例如成绩,可以分为低、中、高三档,并且存在高>中>低的排序关系。
  • 独热编码:用于处理类别间不具有大小关系的特征。例如血型,有四个取值,独热编码会把血型变成一个四维稀疏向量, A ( 1 , 0 , 0 , 0 ) A(1,0,0,0) A(1,0,0,0)。对于类别较多时进行独热编码需要注意的问题 1. 1. 1.使用稀疏向量来节省空间。 2. 2. 2.配合特征选择来降低维度
3 高维组合特征的处理

问题:什么是组合特征?如何处理高维度组合特征?
为了提高复杂的拟合能力,在特征工程中经常会把一阶离散特征两两组合,构成高阶组合特征。

4 组合特征
问题:怎样有效地找到组合特征?
5 文本表示模型
  • 词袋模型(Bag of Words)
  • TF-IDF(Term Frequency-Inverse Document Frequency)
  • 主题模型(Topic Model)
  • 词嵌入模型(Word Embedding)
问题:有哪些文本模型?他们各有什么优缺点?
  • 词袋模型和N-gram(连续出现的n个词组成的模型)模型:最基础的文本表示模型是词袋模型。就是将每篇文章看成一袋子词,并忽略每个词出现的顺序。具体地说,就是将整段文本以词为单位切分开,然后每篇文章可以表示成一个长向量,向量中的每一维代表一个单词,而该维对应的权重则反应了这个词在原文中的重要程度。常用TF-IDF来计算权重,公式为:
    T F − I D F ( t , d ) = T F ( t , d ) ∗ I D F ( t ) TF-IDF(t,d)=TF(t,d)*IDF(t) TFIDF(t,d)=TF(t,d)IDF(t)
    其中TF(t,d)为单词t在文档d中出现的频率,IDF(t)是逆文档频率,用来衡量单词t对表达语义所起的重要性,表示为
    I D F ( t ) = l o g 文 章 总 数 包 含 单 词 t 的 文 章 总 数 + 1 IDF(t)=log\frac{文章总数}{包含单词t的文章总数+1} IDF(t)=logt+1
  • 主题模型:用于从文本库中发现有代表性的主题。
  • 词嵌入与深度学习模型:词嵌入是一类将词向量化的模型统称,核心思想是将每个词都映射成低维空间(通常k=50~300维)
6 Word2Vec

Word2Vec,隐狄利克雷模型(LDA),CBOW,Skip-gram。
是目前最常用的词嵌入模型
问题:Word2Vec是如何工作的?它和LDA有什么区别与联系?
          ~~~~~~~~~          CBOW的目标是根据上下文出现的词语来预测当前词的生成概率,而Skip-gram是根据当前词来预测上下文中各词的生成概率
在这里插入图片描述

7 图像数据不足时的处理方法

知识点:迁移学习(Transfer Learning),生成对抗网络,图像处理,上采样技术,数据扩充
问题:在图像分类任务中,训练数据不足带来什么问题?如何缓解数据不足带来的问题?
       ~~~~~~       在图像分类任务上,训练数据不足带来的问题主要表现在过拟合方面,即模型在训练样本上的效果可能不错,但在测试集的泛化效果不佳。
       ~~~~~~       处理方法:一基于模型的方法,主要采用降低过拟合风险的措施,包括简化模型(如将非线性模型简化为线性模型)、添加约束项以缩小假设空间(如L1/L2正则项)、集成学习、Dropout超参数等。二是基于数据的方法,主要通过数据扩充(Data Augmentation),即根据一些先验知识,在保持特定信息的前提下,对原始数据进行适当变换以达到扩充数据集的效果。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值