[一起面试AI]NO.4特征工程主要包括什么?

Q1 数据预处理主要包括什么

  1. 「无量纲化」

无量纲化主要解决数据的「量纲不同」的问题,使不同的数据转换到「同一」规格,常见的方法有「标准化」「区间缩放法」。标准化的假设前提是特征值服从「正态分布」。区间放缩法利用了「边界值」信息,将特征的取值区间缩放到某个「特点」的范围,列如[0,1]等。

(1) 标准化

理论上,标准化适用于服从正态分布的数据,目前很多工程都依赖大数据,所以在样本「足够多」的情况下,工程师往往直接使用标准化对数据进行无量纲化预处理,在深度学习中,将数据标准化能够保证有更好的「收敛」。如果不进行数据标准化,有些「特征」将会对损失函数影响很大,使得其他值比较小的特征重要性「降低」

(2)归一化/区间缩放法

归一化适用于数据量较小的工程。顾名思义就是利用两个最值进行缩放。公式为(x-min)/(max-min)

「2.哑编码与独热编码」

如果某一列数据是一些特征,比如国家名称,那就没有办法应用到回归或者分类里,所以需要对数据进行哑编码或者独热编码。

哑编码与独热编码的区别主要是哑编码祛除了一个状态位。

「例如」:假设在中国、德国、法国、美国四种可能的取值,独热编码就是用每个维度表达一个国家,比如中国为1,0,0,0。而哑编码只需要三个状态位,如其他都为0则中国必为1.

「3.缺失值补充」

缺失值最常用的就是「均值、就近补齐、K最近距离填充」等方法。特别需要注意的是,有的时候缺失值也是一种特征。

应当分为三种情况:

当缺失值过多时:应当舍弃这个特征。

当缺失值适中时:应当将填充值当成一种特征

当缺失值较少时:可以考虑进行填充

填充的常用策略:

  1. 用一个异常值填充并将缺失值作为一个特征处理
  2. 用均值或者条件均值填充,如果数据是不平衡的,那么应该使用条件均值填充,条件均值指的是与缺失值所属标签相同的所有数据的均值。
  3. 用相邻数据填充
  4. 利用插值算法
  5. 数据拟合,将缺失值当成一种预测来处理

Q2 特征选择主要包括什么

特征选择是非常关键的步骤,选入大量的特征不仅会降低模型效果,也会耗费大量的计算时间,而漏选的特征也会直接影响到最终的模型结果。一般情况下主要利用以下办法进行特征选择。

「1.方差选择法」

假如某列特征变化一直很平缓,所以说明这组特征对预测结果影响不大,所以应该计算出各个特征的方差选择方差大于自身阈值的特征。

「2.相关系数,统计检验」

相关系数或者统计检验都可以用来特征选择。

「3.互信息法」

互信息法也经常用来评价自变量对因变量的相关性。

「4.基于机器学习的特征选择法」

主要是针对特征和响应变量建立预测模型,例如用基于树的方法(决策树,随机森林,GDBT),或者扩展的线性模型。

Q3 特征降维主要包括什么

  1. 「主成分分析法(PCA)」

PCA是一个将数据变换到一个新的坐标系统中的线性变换,使得任何数据的投影的第一大方差在第一个坐标(第一主成分)上,第二大方差在第二个坐标(第二主成分)上,以此类推。

其作用只要是为了让映射后得到的向量具有最大的不相关性。就是说PCA追求的是再将位置后能够最大化保持数据的内在信息。

  1. 「线性判别分析法(LDA)」

LDA是一种有监督的降维方法,主要是将高维的模式样本投影到最佳鉴别空间。

其作用是投影后保证模式样本在新的子空间有最大的类间距离和最小的类内距离,即同类的数据点尽可能地接近,而不同类的数据点尽可能地分开。

LDA和PCA的区别是一个很「重要」的知识点,他们主要有以下区别。

​ (1)LDA是「有监督」的降维方法,而PCA是无监督的。

​ (2)LDA降维「最多」降到类别数k-1的维数,而PCA没有限制。

​ (3)LDA选择分类「性能最好」的投影方向,而PCA选择样本点投影具有「最大方差」的方向。

  1. 「局部线性嵌入(LLE)」

    局部线性嵌入算法认为每个数据点可以由其近邻点的线性加权组合构造得到,能够使得降维后的数据较好地保持原有流行结构。

    在真实工业场景中,局部线性嵌入用的「较少」

    Q4 特征构造主要包括什么

    特征构造主要是针对具体的项目属性,数据特点来构造出可能的重要特征。特征构造是非常关键的步骤,对模型效果的提升帮助巨大。下面举三个例子:

    预测某商场未来的销售量,是不是周末就是很重要的特征。

    客户关系中,消费间隔时长,消费频率,消费金额就是很重要的指标。

    预测交通流量中,是不是早晚高峰时期、道路宽度等是非常重要的特征。


hi 认识一下?

微信关注公众号:「全都是码农」 (allmanong)
你将获得:
关于人工智能的所有面试问题「一网打尽」!未来还有「思维导图」哦!
回复「121」 立即获得 已整理好121本「python学习电子书」
回复「89」 立即获得 「程序员」史诗级必读书单吐血整理「四个维度」系列89本书。
回复「167」 立即获得 「机器学习和python」学习之路史上整理「大数据技术书」从入门到进阶最全本(66本)
回复「18」 立即获得 「数据库」从入门到进阶必读18本技术书籍网盘整理电子书(珍藏版)
回复「56」 立即获得 我整理的56本「算法与数据结构」
未来还有人工智能研究生课程笔记等等,我们一起进步呀!


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
https://yige.baidu.com/是一个基于百度AI技术开发的在线智能问答平台,旨在为用户提供高效便捷的问答服务。该平台的开发者是百度公司,采用了最新的自然语言处理技术和深度学习算法,能够快速准确地回答用户提出的问题。 该平台的工作流程如下:首先用户进入该网站,然后在搜索框中输入问题,平台会对问题进行语义分析和相关知识图谱的匹配,然后生成最佳答案并展示给用户。同时,该平台还支持用户进行多轮问答,即用户可以通过提出多个问题与平台进行对话,平台可以根据用户之前的问题和回答,更好地理解用户的需求和意图,从而提供更加准确的答案。 在使用该平台时,用户可以通过输入问题或者关键词的方式进行搜索,也可以通过分类浏览的方式查找相关问题。同时,该平台还支持语音输入和图片搜索等多种方式,为用户提供更加便捷的服务。 为了提供更加全面的服务,该平台还支持用户进行个性化设置,例如用户可以选择自己感兴趣的领域和主题,或者选择不同的语言和地区进行搜索。此外,该平台还提供了专业的咨询服务和人工客服支持,用户可以通过在线咨询或电话咨询等方式进行沟通。 总体来说,https://yige.baidu.com/是一个功能强大、智能高效的在线问答平台,为用户提供了便捷的问答服务和个性化的体验。未来随着人工智能技术的不断发展和应用,该平台将会越来越智能化和人性化,为用户带来更加优质的服务体验。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值