机器学习---算法基础（一）特征工程与文本特征值提取

最新推荐文章于 2023-11-07 15:47:59 发布

Gwynbleidddd

最新推荐文章于 2023-11-07 15:47:59 发布

阅读量819

点赞数

分类专栏：机器学习 Python

本文链接：https://blog.csdn.net/qq5024581/article/details/107350454

版权

28 篇文章 0 订阅

订阅专栏

9 篇文章 0 订阅

订阅专栏

机器学习的数据文件：csv
可用数据集合：

结构：特征值 + 目标值

数据预处理：
缺失值，数据转换==》使用pandas进行处理

重复值：对于机器学习，重复值需要进行去重。

数据清洗：

对特征进行处理的过程。将原始数据转换为更好代表模型的潜在问题的特征的过程，从而可以更好的处理。
常用的工具为sklearn，其中常用的算法有：
分类，回归，聚类，降维，模型选择，特征工程。

将文本与图像等数据转换为数字（特征值化）

	dict = DicVertorizer()
	# 抽取好的特征值
	data = dict.fit_transform([{'city':'beijing','temperature':100}])
	
	# 获取特征值列表
	dict.get_feature_names()

	dict = CountVertorizer()
	# 抽取好的特征值
	data = dict.fit_transform([{'city':'beijing','temperature':100}])
	
	# 获取特征值列表
	dict.get_feature_names()

数值型的数据处理：归一化，标准化

归一化
通过原始数据进行变化将数据映射到默认区间中，默认是0到1
sklearn.MinMaxScler()

归一化的重要性：
在结果值看来，不收到某个特征值本身的更大影响。
归一化的缺点是：容易收到异常点的影响。所以这个算法的鲁棒性较差，只适合于精确小数据的场景。

标准化
通过对原始数据进行变换吧数据变换到均值为0，方差为1的范围内。
StandardScaler（）
标准化的特点
在已经样本够多的情况下比较稳定，适合于噪点较多的场景。

如何处理缺失值？
一般有两种方式：删除，插补。
如果每行或者每列的数据值缺失的比例达到一定程度则建议删除。
如果缺少的值较少，建议使用平均值或者中位值进行填补。

sklearn中提供imputer处理缺失值。

关注