机器学习的特征工程
文章平均质量分 95
特征工程是机器学习管道中的关键步骤,但很少单独研究这个主题。您将学习将特征(原始数据的数字表示)提取和转换为机器学习模型格式的技术。每章都会引导您解决一个数据问题,例如如何表示文本或图像数据。这些示例共同说明了特征工程的主要原理。
Sonhhxg_柒
Save your heart for someone who cares. #愿岁月清净 抬头遇见皆是柔情#
展开
-
【ML特征工程】第 4 章 :特征缩放的影响:从词袋到 Tf-Idf
中所讨论的,训练线性分类器归结为找到特征的最佳线性组合,这些特征是数据矩阵的列向量。中艾玛和乌鸦的例子。“Emma”和“raven”这两个词都出现了三次,但“the”出现了八次,“and”出现了五次,“it”和“was”都出现了四次。不平衡的数据集对于建模来说是有问题的,因为模型将花费大部分精力来适应更大的类别。这将导致相应的列向量几乎是线性相关的,从而导致列空间不像它可能的那样满秩(有关满秩的定义,请参见。类似地,特征缩放不影响零空间的等级,因为可以通过反向缩放权重向量中的相应条目来抵消缩放后的特征列。原创 2022-11-26 09:58:33 · 549 阅读 · 4 评论 -
【ML特征工程】第 9 章 :回到特征:构建学术论文推荐器
在我们完成每个步骤时,我们将检查形成每个特征的原始数据、转换后的特征,以及我们在此过程中做出的权衡。因为我们一次只需要一个结果,我们可以改变我们的函数,这样我们一次只计算一个项目,指定我们想要的最高结果的数量。我们在这里定义“更好”不仅是根据我们的训练和测试的良好结果,还包括减少模型的大小和我们迭代不同实验所花费的时间。让我们尝试一些新的特征工程技巧,看看我们是否可以加快计算时间并找到更好的特征和搜索结果的更好方法。坏消息是接下来的两篇论文似乎与我们最初的搜索不太接近,即使对于我们选择的特征也是如此。原创 2022-11-28 09:33:24 · 516 阅读 · 5 评论 -
【ML特征工程】第 8 章 :自动化特征化器:图像特征提取和深度学习
视觉和声音是人类天生的感官输入。我们的大脑天生就可以快速进化我们处理视觉和听觉信号的能力,一些系统甚至在出生前就已经开始对刺激做出反应 (Eliot, 2000)。另一方面,语言技能是后天习得的。他们需要几个月的时间来开发和数年才能掌握。许多人认为他们的视力和听力的发展是理所当然的,但我们所有人都必须有意识地训练我们的大脑来理解和使用语言。有趣的是,机器学习的情况正好相反。与图像或音频相比,我们在文本分析应用程序方面取得了更多进展。以搜索问题为例。人们在信息检索和文本搜索方面已经取得了多年的相对成功,而图像原创 2022-11-28 09:33:05 · 1043 阅读 · 3 评论 -
【ML特征工程】第 7 章 :通过K-Means 模型堆叠进行非线性特征化
这是准确性和速度之间的一个很好的权衡,这种策略通常用于需要快速适应不断变化的数据分布的目标广告等应用程序。如果簇的数量小于原始特征的数量,那么新表示的维数将比原来的少;较低的计算成本允许我们在同一时间段内尝试更多具有不同特征的模型,这增加了最终得到更好模型的机会。我们可以清楚地看到来自流形的非常不同部分的数据被映射到相同的集群(例如,黄色、紫色、绿色和品红色集群——看,我们告诉过你插图最好是彩色的!关键的观察结果是,即使一个大的流形看起来很复杂,每个点周围的局部邻域通常也可以用一块平面很好地近似。原创 2022-11-27 09:35:24 · 993 阅读 · 6 评论 -
【ML特征工程】第 6 章 :降维:用 PCA 压缩数据薄饼
借助自动数据采集和特征生成技术,可以快速获取大量特征。但并非所有这些都有用。在第章和第章中,我们讨论了基于频率的过滤和特征缩放作为修剪掉无信息特征的方法。现在我们将仔细研究使用主成分分析(PCA) 进行特征降维的主题。本章标志着进入基于模型的特征工程技术。在此之前,大多数技术都可以在不引用数据的情况下定义。例如,基于频率的过滤可能会说,“去掉所有小于n的计数”,该过程无需数据本身的进一步输入即可执行。另一方面,基于模型的技术需要来自数据的信息。例如,PCA 是围绕数据的主轴定义的。原创 2022-11-27 09:35:00 · 544 阅读 · 2 评论 -
【ML特征工程】第 5 章 :分类变量:机器鸡时代的鸡蛋计数
顾名思义,分类变量用于表示类别或标签。例如,分类变量可以代表世界上的主要城市、一年中的四个季节或公司的行业(石油、旅游、技术)。在现实世界的数据集中,类别值的数量总是有限的。这些值可以用数字表示。但是,与其他数值变量不同,分类变量的值不能相互排序。(石油作为一种行业既不大于也不小于旅行。)他们被称为非序数。一个简单的问题可以作为试金石来检验某个东西是否应该是一个分类变量:“两个值有多么不同,或者只是它们不同有关系吗?” 500 美元的股票价格是 100 美元的价格的五倍。原创 2022-11-26 09:58:46 · 663 阅读 · 4 评论 -
【ML特征工程】第 3 章 :文本数据:扁平化、过滤和分块
如果你正在设计一种算法来分析以下段落,你会怎么做文字?艾玛敲了敲门。没有答案。她又敲了敲门,等待着。房子旁边有一棵大枫树。艾玛抬头看着树,看到一只巨大的乌鸦栖息在树梢上。午后的阳光下,乌鸦熠熠生辉。它的喙又硬又尖,爪子锋利而有力。它看起来富丽堂皇。它统治着它所站立的树。乌鸦正用它圆圆的黑眼睛直直地看着艾玛。艾玛感到有点害怕。她从门口退了一步,试探着开口:“喂?”这段包含了很多信息。我们知道它涉及一个名叫艾玛的人和一只乌鸦。有一所房子和一棵树,艾玛正试图进入房子,却看到了乌鸦。原创 2022-11-25 10:07:37 · 698 阅读 · 4 评论 -
【ML特征工程】第 2 章 :简单数字的花式技巧
在深入研究文本和图像等复杂数据类型之前,让我们先从最简单的数据开始:数字数据。这可能来自各种来源:一个地方或一个人的地理定位、购买价格、来自传感器的测量、交通计数等。数字数据已经采用数学模型可以轻松获取的格式。但这并不意味着不再需要特征工程。好的特征不仅应该代表数据的显着方面,还应该符合模型的假设。因此,转换通常是必要的。数字特征工程技术是基础。只要将原始数据转换为数字特征,就可以应用它们。数字数据的第一个健全性检查是量级是否重要。我们只需要知道它是正面的还是负面的?或者也许我们只需要知道非常粗粒度的大小?原创 2022-11-24 09:46:37 · 487 阅读 · 7 评论 -
【ML特征工程】第 1 章 :机器学习管道
在深入研究特征工程之前,让我们花点时间看一下整个机器学习管道。这将帮助我们了解应用程序的大局。为此,我们将从对数据和模型等基本概念进行一些思考开始。原创 2022-11-24 09:46:02 · 535 阅读 · 6 评论