特征工程
文章平均质量分 89
本专栏介绍人工智能中的特征工程
AI浩
2022年博客之星Top8,2021年博客之星Top6,博客专家,华为云云享专家,十佳博主,阿里云专家博主,拥有多项发明专利并参与过国家重大专项,拥有丰富的开发经验。注重理论与实践的结合,让AI学起来不再枯燥。如果大家在看文章的时候,发现了文章的错误,烦请指出,我会及时纠正。
展开
-
时间序列中的轨迹聚类
时间序列的聚类在时间序列分析中是非常重要的课题,在很多真实工业场景中非常有用,如潜在客户的发掘,异常检测,用户画像构建等。不同于一般样本聚类方式,时间序列因为其独特的时变特性,很多研究者都在探寻如何对其轨迹进行聚类。然而轨迹聚类非常有挑战。首先,时间序列一般存在大量的噪声,这会引入较大的误差;其次,时间序列很多时候存在错位匹配的情况,需要采用相似性度量算法来解决,实际中需要根据场景做额外处理;最后,聚类方法和参数选择也有不少的讲究。整体来说,时序的轨迹聚类需要借助大量的领域知识来共同完成。转载 2022-10-02 06:56:39 · 1382 阅读 · 0 评论 -
热力图可视化工具
引言一直以来,深度神经网络的可解释性都被大家诟病,训练一个神经网络被调侃为“炼丹”。所得的模型也像一个“黑盒”一样,给它一个输入,然后得到结果,却不知道模型是如何得出结论的,究竟学习到了什么知识。如果能将其训练或者推理过程可视化,那么可以对其更加深入的理解,目前深度神经网络可视化可以分为:可视化卷积核;可视化特征图;可视化激活热力图,也就是不同位置像素点对得出结果的影响程度图 1 神经网络可视化汇总其中,可视化卷积核 (a) 的方法最早出现,早在 2012 年的 AlexNet转载 2022-01-11 06:39:02 · 3517 阅读 · 0 评论 -
图像特征——下篇
图像特征在图像特征系列,我们列举了这几年kaggle竞赛平台上90%以上最为常用的图像特征,对应的框架如下,很多特征已经在之前的上篇和中篇介绍完了,此处我们弥补上剩下的一些常用图像特征:1.图像色彩特征图像色彩有许多实际用途,包括评估压缩算法、评估给定相机传感器模块对颜色的敏感度、计算图像的“美学质量”等等,图像色彩越高的话往往图片越加亮丽更能吸引用户。此处我们借鉴2003年的论文"Measuring colorfulness in natural images"使用Ope.转载 2021-04-30 09:24:52 · 713 阅读 · 0 评论 -
图像特征——中篇
图像特征和文本特征类似,图像特征也是梯度提升树模型非常难以挖掘的一类数据,目前图像相关的问题,例如图像分类,图像分割等等几乎都是以神经网络为主的模型,但是在一些多模态的问题中,例如商品搜索推荐的问题中,里面既包含图像信息又含有文本信息等,这个时候基于梯度提升树模型的建模方案还是至关重要的,这个时候为了更好地使用所有的数据信息,我们需要对图像特征进行多方位的提取。本节我们接着上一节10大特征之后再补充另外的一些最为经典的特征。1.图像预训练特征目前预训练的图像特征非常的多,典型转载 2021-04-28 09:30:20 · 1268 阅读 · 0 评论 -
图像特征-上篇(10大图像特征)
图像特征和文本特征类似,图像特征也是梯度提升树模型非常难以挖掘的一类数据,目前图像相关的问题,例如图像分类,图像分割等等几乎都是以神经网络为主的模型,但是在一些多模态的问题中,例如商品搜索推荐的问题中,里面既包含图像信息又含有文本信息等,这个时候基于梯度提升树模型的建模方案还是至关重要的,这个时候为了更好地使用所有的数据信息,我们需要对图像特征进行多方位的提取。本节我们将会介绍图像特征提取中常常采用的方法技术。1.图像长宽图像的长宽可以表示图像的大小。 图像的长宽以及c转载 2021-04-26 10:23:13 · 4597 阅读 · 0 评论 -
文本特征工程——下篇
文本特征-下篇针对梯度提升树模型对文本特征进行特征工程,我们需要充分挖掘Label编码丢失的信息,例如上面的名字特征,内部存在非常强的规律,Mr等信息,这些信息反映了性别相关的信息,如果直接进行Label编码就会丢失此类信息,所以我们可以通过文本技巧对其进行挖掘。在本文中,我们对现在常用的文本特征进行汇总。在上篇中介绍过的此处不在赘述。1.词汇属性特征每个词都有其所属的属性,例如是名词,动词,还是形容词等等。词汇属性特征很多时候能帮助模型带来效果上的微弱提升,可以作为一类补充信息转载 2021-04-26 10:21:34 · 1276 阅读 · 0 评论 -
人工智能——特征工程总结
1 特征工程是什么?有这么一句话在业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。那特征工程到底是什么呢?顾名思义,其本质是一项工程活动,目的是最大限度地从原始数据中提取特征以供算法和模型使用。通过总结和归纳,人们认为特征工程包括以下方面:2 数据预处理 通过特征提取,我们能得到未经处理的特征,这时的特征可能有以下问题:不属于同一量纲:即特征的...原创 2020-04-07 15:11:39 · 9888 阅读 · 0 评论 -
关于Onehot编码的总结
什么情况下使用onehot对于定类类型的数据,建议使用one-hot encoding。定类类型就是纯分类,不排序,没有逻辑关系。比如性别分男和女,男女不存在任何逻辑关系,我们不能说男就比女好,或者相反。再者,中国各省市分类也可以用独热编码,同样各省不存在逻辑关系,这时候使用one-hot encoding会合适些。但注意,一般会舍去一个变量,比如男的对立面肯定是女,那么女就是重复信息,所以保留其中一个变量即可。对于定序类型的数据,建议使用label encoding。定序类型也是分类,但有排序逻...原创 2020-12-02 09:52:34 · 4537 阅读 · 0 评论 -
特征工程--单时间变量特征
时间特征时间信息是极其敏感的信息,我们在数据竞赛中看到分数前后排出现较大gap的时候,第一时间需要考虑的就是时间信息,时间特征在很多竞赛中,往往可以决定排名的走势,那么当我们拿到时间相关的特征时,该如何进行思考,构建强有力的特征呢?(PS:本文我们介绍8大常见的单变量时间特征,剩下的两个可能一不小心拿金牌强特会在后续分享)。1.基础周期特征(年月日特征拆解)几乎所有的时间都可以被拆解为年-月-日-小时-分钟-秒-毫秒的形式。在大多数情况中,拆解之后的数据往往存在某些潜在规律的,比如:.转载 2021-04-19 09:02:35 · 691 阅读 · 2 评论 -
特征工程--有序类别变量&单数值变量特征工程
有序类别特征有序类别特征,故名思意,就是有相对顺序的类别特征。例如: 年龄段特征:"1-10,11-20,21-30,31-40"等年龄段; 评分特征:"high,medium,low"; 有序类别特征和无序的类别特征有些许区别,例如Label编码等,如果我们直接按照原先的LabelEncoder进行转化就会丢失特征相对大小的信息,这对于梯度提升树模型会带来负向的效果,因为序列信息可能和标签有着强烈的相关性,比如回购的问题,有“high,medium,low”三种评分,用户购物之转载 2021-04-19 09:05:27 · 2129 阅读 · 0 评论 -
特征工程-无序单无序类别特征特征工程!
前言在之前的文章中,我们已经介绍过部分类别特征编码的内容,此处,我们将所有的内容进行整合为一个系列,我们不罗列过多的知识点,重点介绍在kaggle过往几年内中大家最为常用有效的类别编码技巧,如果对其它类型编码感兴趣的朋友可以学习扩展部分的内容。类别特征编码在很多表格类的问题中,高基数的特征类别处理一直是一个困扰着很多人的问题,究竟哪一种操作是最好的,很难说,不同的数据集有不同的特性,可能某一种数据转化操作这A数据集上取得了提升,但在B数据集上就不行了,但是知道的技巧越多,我们能.转载 2021-04-19 09:10:12 · 1305 阅读 · 1 评论 -
特征工程——文本特征
注意:1.本系列所有的文章主要是梯度提升树模型展开的,抽取的特征主要为帮助梯度提升树模型挖掘其挖掘不到的信息,本文介绍的所有特征都可以当做特征直接加入模型,和基于神经网络的策略有些许差别;2. 因篇幅过多,本篇文章介绍文本特征的20种不同的特征,后续的文本特征会在后面的文章中更新!文本特征-上篇文本特征和类别特征会有一些简单的交集,一些简单的文本特征可以直接当做类别特征处理,例如: 花的颜色:red,blue,yellow等等; 名字:Mr jack,Mr smi..转载 2021-04-20 12:20:16 · 3552 阅读 · 0 评论