机器学习(1)--特征工程之特征抽取

最新推荐文章于 2024-08-21 14:16:17 发布

Ona_Soton

最新推荐文章于 2024-08-21 14:16:17 发布

阅读量1.4k

点赞数

分类专栏：机器学习文章标签：深度学习机器学习自然语言处理

本文链接：https://blog.csdn.net/Ona_Soton/article/details/120360197

版权

本文介绍了机器学习中的特征工程，特别是特征抽取的重要性。讲解了如何使用Pandas处理数据，以及scikit-learn中的DictVectorizer和CountVectorizer进行特征抽取。还探讨了文本特征抽取，包括CountVectorizer对文本的词频统计和TfidfVectorizer的TF-IDF计算，以及处理中文文本的预处理步骤，如使用jieba分词。

摘要由CSDN通过智能技术生成

三者关系：人工智能>机器学习>深度学习

机器学习：

机器学习是从数据中自动分析获得规律（模型），并利用规律对未知数据进行预测

机器学习的数据：文件csv（mysql有性能瓶颈，读取速度慢，格式不符合机器学习所要求的格式）

Pandas：读取工具

数据集结构：

可用数据集

1. Kaggle

特点：

1）大数据竞赛平台

2）80万科学家

3）真实数据

4）数据量巨大

2. UCI

特点：

1）收录了360个数据集

2）覆盖科学、生活、经济等领域

3）数据量几十万

3. scikit-learn

特点：

1）数据量较小

2）方便学习

常用数据集结构的结构组成

特征值+目标值

数据处理工具

Pandas：一个数据读取非常方便以及基本的处理格式的工具

sklearn：对于特征的处理提供了强大的接口

特征工程

目的：特征工程是将原始数据转换为更好地代表预测模型的潜在问题的特征的过程，从而提高了对未知数据的模型准确性

包括三大内容：特征抽取，特征预处理和降维

一、特征抽取

目的：将字典、文本或字符串等其他类型的数据转化成数字类型的数据（特征值化）

sklearn特征抽取API：sklearn.feature_extraction

1. 字典特征抽取：sklearn.feature_extraction.DictVectorizer（类，使用需要实例化）

DictVectorizer语法：

1）DictVectorizer.fit_transform(X)

X:字典或者包含字典的迭代器

返回值：返回sparse矩阵，X指sparse参数，其默认为True

2）DictVectorizer.inverse_transform(X)

X:array数组或者sparse矩阵

返回值:转换之前数据格式

3）DictVectorizer.get_feature_names()

返回类别名称

4）DictVectorizer.transform(X)

按照原先的标准转换

字典特征提取流程：

1）实例化类DictVectorizer

2）调用fit_transform方法输入数据并转换（注意返回格式）

from sklearn.feature_extraction import DictVectorizer


def dictvec():
    """
    字典数据抽取
    ：return：None
    “”“
    #实例化
    dict = DictVectorizer()

    #调用fit_transform
    data = dict.fit_transform({'city':'北京'，‘temperature’: 100}, {'city': '上海'， ‘temperature’: 60}, {'city': '深圳', 'temperature': 30})
    
    print(data)

    return None
   
if __name__ == "__main__":
    dictvec()

结果显示：