sklearn特征抽取API

最新推荐文章于 2022-07-19 19:36:43 发布

阔尼叽哇憨批嘎哒

最新推荐文章于 2022-07-19 19:36:43 发布

阅读量225

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_38495542/article/details/112301389

版权

机器学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

Sklearn特征抽取API

特征抽取对文本等数据进行特征值化

Sklearn：对于特征处理提供了强大的接口
特征工程：把拿到的数据集里的那些字符串、汉字等无法被用于直接运算的数据转化成可运算的数字。
特征工程的意义：直接影响预测结果
需要用到的类：sklearn.feature_extraction

字典特征抽取

作用：对字典数据进行特征值化
在这里插入图片描述

# 特征抽取
#
# 导入包
# from sklearn.feature_extraction.text import CountVectorizer
#
# # 实例化CountVectorizer
#
# vector = CountVectorizer()
#
# # 调用fit_transform输入并转换数据
#
# res = vector.fit_transform(["life is short,i like python","life is too long,i dislike python"])
#
# # 打印结果
# print(vector.get_feature_names())
#
# print(res.toarray())

eg：
1.导入包

from sklearn.feature_extraction import DictVectorizer

2.定义字典数据抽取方法

def dictvec():
    """
    字典数据抽取
    :return: None
    """
    # 实例化DictVectorizer（）
    dict = DictVectorizer()

3.fit_transform（a）方法功能为将所给字典数据（a/列表形式）转换成sparse矩阵形式

	#调用fit_transform
    data = dict.fit_transform([{'city': '北京','temperature': 100}, {'city': '上海','temperature':60}, {'city': '深圳','temperature': 30}])
    print(data)
    return None
if __name__ == '__main__':
    dictvec()

输出结果：
在这里插入图片描述
但这样观察转换的数据并不直观，解决方法只需要将DictVectorizer类里的缺省值sparse值改为False（默认为Ture）即：

    dict = DictVectorizer(sparse=False)

执行结果变为：
在这里插入图片描述
但这样看还是无法理解矩阵中每个元素代表的含义
这里就需要用到方法get_feature_names()
它会返回一个矩阵，需要定义一个变量去接收或者直接print输出
它的作用是将输出矩阵对应纵坐标的特征名称以一行输出，如图

    dict = DictVectorizer(sparse=False)
    #调用fit_transform
    data = dict.fit_transform(data_dict)
    print(dict.get_feature_names())
    print(data)
    return None
if __name__ == '__main__':
    dictvec()

在这里插入图片描述
inverse_transform(data)方法作用：把转换成矩阵的数据转换成原来的数据类型

    print(dict.get_feature_names())
    #把转换成矩阵的数据转换成原来的数据类型
    print(dict.inverse_transform(data))

    print(data)

执行结果：
在这里插入图片描述

总结：字典数据抽取：把字典中⼀些类别数据，分别进⾏转换成特征
one-hot编码

文本特征抽取

在这里插入图片描述

注意：CountVectorizer()不像DictVectorizer（）一样有sparse缺省值，所以不能直接将其转换成one-hot矩阵，得借助toarray()方法来转换

实操：
1、导包

from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer

2、写countvect函数

def countvec():
    """
    对文本进行特征值化
    :return: None
    """
    cv = CountVectorizer()
    data = cv.fit_transform(["life is short,i like python", "life is long,i dislike python"])
    print(data)
    return None
if __name__ == "__main__":
    countvec()

3、执行结果
在这里插入图片描述
显然，这种结果也不直观
4、改进
运用get_feature_names()函数来输出纵坐标字符列表
运用toarray()函数来将输出矩阵转换成更加直观的one-hot矩阵

def countvec():
    """
    对文本进行特征值化
    :return: None
    """
    cv = CountVectorizer()

    data = cv.fit_transform(["life is short,i like python", "life is long,i dislike python"])
    print(cv.get_feature_names())
    print(data.toarray())

    return None


if __name__ == "__main__":
    countvec()

5、输出
在这里插入图片描述
横坐标：表示每句话里出现的内容，这里有两句话（一个列表里装了两个字符串），所以矩阵有两个行向量。
纵坐标：表示每个单词在每个句子中出现的次数，不重复出现，单个字母也不统计（没有分类依据）

阔尼叽哇憨批嘎哒

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
sklearn特征抽取API

Sklearn特征抽取API特征抽取对文本等数据进行特征值化Sklearn：对于特征处理提供了强大的接口特征工程：把拿到的数据集里的那些字符串、汉字等无法被用于直接运算的数据转化成可运算的数字。特征工程的意义：直接影响预测结果需要用到的类：sklearn.feature_extraction字典特征抽取作用：对字典数据进行特征值化# 特征抽取## 导入包# from sklearn.feature_extraction.text import CountVectorizer
复制链接

扫一扫

专栏目录