特征工程
沫嫣子
这个作者很懒,什么都没留下…
展开
-
特征工程(七):图像特征提取和深度学习
来源:https://mp.weixin.qq.com/s/pZWKECYyvLlkB-Qt8wi0fw视觉和声音是人类固有的感觉输入。我们的大脑是可以迅速进化我们的能力来处理视觉和听觉信号的,一些系统甚至在出生前就对刺激做出反应。另一方面,语言技能是学习得来的。他们需要几个月或几年的时间来掌握。许多人天生就具有视力和听力的天赋,但是我们所有人都必须有意训练我们的大脑去理解和使用语言。有趣的是,机器学习的情况是相反的。我们已经在文本分析应用方面取得了比图像或音频更多的进展。以搜索问题为例。人们.转载 2020-05-28 17:00:55 · 9399 阅读 · 0 评论 -
特征工程(六): 非线性特征提取和模型堆叠
来源:https://mp.weixin.qq.com/s/vEWP-xej_aEcyu_9dy5XwQ当在数据一个线性子空间像扁平饼时 PCA 是非常有用的。但是如果数据形成更复杂的形状呢?一个平面(线性子空间)可以推广到一个流形(非线性子空间),它可以被认为是一个被各种拉伸和滚动的表面。如果线性子空间是平的纸张,那么卷起的纸张就是非线性流形的例子。你也可以叫它瑞士卷。(见图 7-1),一旦滚动,二维平面就会变为三维的。然而,它本质上仍是一个二维物体。换句话说,它具有低的内在维度,这是我...转载 2020-05-28 16:56:41 · 938 阅读 · 0 评论 -
特征工程(五): PCA 降维
来源:https://mp.weixin.qq.com/s/Zdb_fIb5-zpvq4sTeu3Dww通过自动数据收集和特征生成技术,可以快速获得大量特征,但并非所有这些都有用。我们前面讨论了基于频率的滤波和特征缩放修剪无信息的特征。现在我们来仔细讨论一下使用主成分分析(PCA)进行数据降维。本章标志着进入基于模型的特征工程技术。在这之前,大多数技术可以在不参考数据的情况下定义。对于实例中,基于频率的过滤可能会说“删除所有小于n的计数“,这个程序可以在没有进一步输入的情况下进行数据本身。 另.转载 2020-05-28 16:54:47 · 824 阅读 · 0 评论 -
特征工程(四): 类别特征
来源:https://mp.weixin.qq.com/s/Ub-bnil-DvMFNB4np3nOhQ一个类别特征,见名思义,就是用来表达一种类别或标签。比如,一个类别特征能够表达世界上的主要城市,一年四季,或者说一个公司的产品(石油、路程、技术)。在真实世界的数据集中,类别值的数量总是无限的。同时这些值一般可以用数值来表示。但是,与其他数值变量不一样的是,类别特征的数值变量无法与其他数值变量进行比较大小。(作为行业类型,石油与旅行无法进行比较)它们被称之为非序的。一个简单的问题可以作为测试.转载 2020-05-28 16:51:37 · 1225 阅读 · 0 评论 -
特征工程(三):特征缩放,从词袋到 TF-IDF
来源:https://mp.weixin.qq.com/s/vyJSH3bYTi8B9UOnzzhftw字袋易于生成,但远非完美。假设我们平等的统计所有单词,有些不需要的词也会被强调。在第三章提过一个例子,Emma and the raven。我们希望在文档表示中能强调两个主要角色。示例中,“Eama”和“raven”都出现了3词,但是“the”的出现高达8次,“and”出现了次,另外“it”以及“was”也都出现了4词。仅仅通过简单的频率统计,两个主要角色并不突出。这是有问题的。其他的像是“mag转载 2020-05-28 16:35:14 · 393 阅读 · 0 评论 -
特征工程(二) :文本数据的展开、过滤和分块
https://mp.weixin.qq.com/s/4WobY9h8A3OOm0VdmFQj6g如果让你来设计一个算法来分析以下段落,你会怎么做?Emma knocked on the door. No answer. She knocked again and waited. There was a large maple tree next to the house. Emma looked up the tree and saw a giant raven perched at the tr转载 2020-05-28 16:32:32 · 406 阅读 · 0 评论 -
特征工程(一)数据预处理
1、二值化当某个特征数据分布偏态明显时(如下图:99%的数据为24以内,最大值达到9667),将数据做二值化处理,如:将小于1的数据记为0,将大于1的数据记为1。2、固定宽度装箱对于固定宽度装箱, 每个 bin 都包含一个特定的数值范围。范围可以是定制设计或自动分割, 它们可以线性缩放或指数缩放。例如, 我们可以将一个人的年龄分组为十年: 0-9 岁归纳到bin 1, 10-19 年归纳到 bin 2 等。要从计数映射到 bin, 只需除以 bin 的宽度并取整部分。也经常看到定制设计的原创 2020-05-28 16:27:47 · 787 阅读 · 0 评论