数据特征工程 Feature Engineering
文章平均质量分 95
更好的特性造就更好的模型。探索如何最大限度地利用数据。
AI算法蒋同学
信息学奥赛教练!从事AI视觉检测、AI数据智能相关产品研发工作!
展开
-
6、目标编码(Target Encoding)
我们在这门课程中看到的大多数技术都是针对数值特征的。我们将在这节课中看到的技术,目标编码,则是针对分类特征的。它是一种将类别编码为数字的方法,就像独热编码或标签编码一样,不同之处在于它还使用目标来创建编码。这使得它成为我们所说的监督特征工程技术。原创 2024-01-30 18:49:40 · 978 阅读 · 0 评论 -
5、主成分分析(Principal Component Analysis)
在上一课中,我们研究了我们的第一个基于模型的特征工程方法:聚类。在这一课中,我们将研究我们的下一个方法:主成分分析(PCA)。就像聚类是基于接近度对数据集进行划分一样,你可以把PCA看作是对数据中的变化进行划分。PCA是一个很好的工具,可以帮助你发现数据中的重要关系,并且也可以用来创建更有信息量的特征。(技术注释:PCA通常应用于标准化数据。对于标准化数据,“变化”意味着“相关性”。对于未标准化的数据,“变化”意味着“协方差”。在本课程中,所有的数据在应用PCA之前都将被标准化。原创 2024-01-29 14:47:26 · 703 阅读 · 0 评论 -
4、K- 均值聚类(Clustering With K-Means)
这节课和下一节课将使用所谓的无监督学习算法。无监督算法不使用目标;相反,它们的目的是学习数据的某些属性,以某种方式表示特征的结构。在预测的特征工程上下文中,你可以将无监督算法视为"特征发现"技术。聚类简单地意味着根据数据点之间的相似性将数据点分配到组中。聚类算法使得"物以类聚",可以这么说。当用于特征工程时,我们可以尝试发现代表市场细分的客户群,例如,或者分享相似天气模式的地理区域。添加一个聚类标签的特征可以帮助机器学习模型解开空间或接近性的复杂关系。原创 2024-01-29 14:44:58 · 1055 阅读 · 0 评论 -
3、创建特性(Creating Features)
一旦你确定了一组有潜力的特性,就可以开始开发它们了。在这节课中,你将学习如何在Pandas中进行一些常见的转换。如果你对Pandas不熟练, 请参考《从零开始的Pandas之旅_AI算法蒋同学的博客-CSDN博客》进行学习。我们将在本课中使用四个数据集,它们具有各种特性类型:美国交通事故1985年的汽车混凝土配方,和客户终身价值。下面的隐藏单元格加载它们。plt.rc("axes",发现新特性的提示理解特性。如果有的话,参考你的数据集的数据文档。研究问题领域以获取领域知识。原创 2024-01-28 09:42:23 · 1194 阅读 · 0 评论 -
2、互信息(Mutual Information)
首次遇到新的数据集可能会让人感到不知所措。你可能会面对数百甚至数千个特征,甚至没有描述可以参考。你应该从哪里开始呢?一个很好的第一步是构建一个特征效用度量的排名,这是一个衡量特征和目标之间关联性的函数。然后,你可以选择一小部分最有用的特征进行初步开发,这样可以更有信心地投入你的时间。我们将使用的度量标准称为"互信息"。互信息很像相关性,因为它衡量了两个量之间的关系。互信息的优点是它可以检测任何类型的关系,而相关性只能检测线性关系。原创 2024-01-28 09:40:22 · 804 阅读 · 1 评论 -
1、什么是特征工程
在这门课程中,你将学习到构建一个优秀的机器学习模型过程中最重要的一步:特征工程。动手练习将构建一个完整的笔记本,应用所有这些技术来提交房价预测的入门竞赛。完成这门课程后,你将有几个可以用来进一步提高你的性能的想法。你准备好了吗?让我们开始吧!!原创 2024-01-27 20:08:57 · 1143 阅读 · 0 评论