二手车交易价格预测——数据的特征工程

最新推荐文章于 2024-07-29 23:37:19 发布

huaizong342

最新推荐文章于 2024-07-29 23:37:19 发布

阅读量394

点赞数

本文链接：https://blog.csdn.net/huaizong7683/article/details/105168271

版权

本文探讨了特征工程在二手车交易价格预测中的重要性，包括特征构建、特征抽取和特征选择。通过数据预处理、特征选择和降维等步骤，改善数据质量并提升模型效果。介绍了如何处理异常值、缺失值，以及使用独热编码和数据分桶等方法。通过实例展示了如何应用这些技术处理二手车数据，以提高预测准确性。

摘要由CSDN通过智能技术生成

数据决定了机器学习的上限，而算法只是尽可能逼近这个上限”，这里的数据指的就是经过特征工程得到的数据。
特征工程指的是把原始数据转变为模型的训练数据的过程，它的目的就是获取更好的训练数据特征，使得机器学习模型逼近这个上限。

特征工程从概念上一般包括如下几个方法：

特征构建：特征构建是指从原始数据中人工的找出一些具有实际意义的特征。需要花时间去观察原始数据，思考问题的潜在形式和数据结构，对数据敏感性和机器学习实战经验能帮助特征构建。除此之外，属性分割和结合是特征构建时常使用的方法。特征构建是个非常麻烦的问题，书里面也很少提到具体的方法，需要对问题有比较深入的理解。
特征抽取：一些观测数据如果直接建模，其原始状态的数据太多。像图像、音频和文本数据，如果将其看做是表格数据，那么其中包含了数以千计的属性。特征抽取是自动地对原始观测降维，使其特征集合小到可以进行建模的过程。通常可采用主成分分析(PCA)、线性判别分析(LDA))等方法;对于图像数据，可以进行线(line)或边缘(edge)的提取;根据相应的领域，图像、视频和音频数据可以有很多数字信号处理的方法对其进行处理。
特征选择：不同的特征对模型的准确度的影响不同，有些特征与要解决的问题不相关，有些特征是冗余信息，这些特征都应该被移除掉。特征选择是自动地选择出对于问题最重要的那些特征子集的过程。常用的特征选择方法可以分为3类：过滤式(filter)、包裹式(wrapper)和嵌入式(embedding)。

小结
　　总的来说，数据会存在各种各样的问题，针对这些问题我们的特征工程给出了相应的解决办法：1.特征解释能力不足，我们可以尝试使用特征构建，对数据进行升维来提升特征解释能力;2.特征冗余，维度太高，噪声太多，我们可以通过特征抽取和特征选择，来对数据进行降维去噪，提炼特征。当然还有其他的特征处理方法，一般需要根据具体问题而定。

特征工程从过程上一般包括如下几个过程：

数据预处理：数据预处理是特征工程中最为重要的一个环节，良好的数据预处理可以使模型的训练达到事半功倍的效果。数据预处理旨在通过归一化、标准化、正则化等方式改进不完整、不一致、无法直接使用的数据。
原始数据的问题一般有：存在异常值、存在缺失值、不属于同一量纲、信息冗余、定性特征不能直接使用、信息利用率低等问题。
具体解决的方法一般有：归一化、标准化、离散化、二值化、哑编码等方法。
特征选择：不同的特征对模型的影响程度不同，我们要自动地选择出对问题重要的一些特征ÿ