sklearn特征抽取API

Sklearn特征抽取API

特征抽取对文本等数据进行特征值化

Sklearn:对于特征处理提供了强大的接口
特征工程:把拿到的数据集里的那些字符串、汉字等无法被用于直接运算的数据转化成可运算的数字。
特征工程的意义:直接影响预测结果
需要用到的类:sklearn.feature_extraction

字典特征抽取

作用:对字典数据进行特征值化
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

# 特征抽取
#
# 导入包
# from sklearn.feature_extraction.text import CountVectorizer
#
# # 实例化CountVectorizer
#
# vector = CountVectorizer()
#
# # 调用fit_transform输入并转换数据
#
# res = vector.fit_transform(["life is short,i like python","life is too long,i dislike python"])
#
# # 打印结果
# print(vector.get_feature_names())
#
# print(res.toarray())

eg:
1.导入包

from sklearn.feature_extraction import DictVectorizer

2.定义字典数据抽取方法

def dictvec():
    """
    字典数据抽取
    :return: None
    """
    # 实例化DictVectorizer()
    dict = DictVectorizer()

3.fit_transform(a)方法功能为将所给字典数据(a/列表形式)转换成sparse矩阵形式

	#调用fit_transform
    data = dict.fit_transform([{'city': '北京','temperature': 100}, {'city': '上海','temperature':60}, {'city': '深圳','temperature': 30}])
    print(data)
    return None
if __name__ == '__main__':
    dictvec()

输出结果:
在这里插入图片描述
但这样观察转换的数据并不直观,解决方法只需要将DictVectorizer类里的缺省值sparse值改为False(默认为Ture)即:

    dict = DictVectorizer(sparse=False)

执行结果变为:
在这里插入图片描述
但这样看还是无法理解矩阵中每个元素代表的含义
这里就需要用到方法get_feature_names()
它会返回一个矩阵,需要定义一个变量去接收或者直接print输出
它的作用是将输出矩阵对应纵坐标的特征名称以一行输出,如图

    dict = DictVectorizer(sparse=False)
    #调用fit_transform
    data = dict.fit_transform(data_dict)
    print(dict.get_feature_names())
    print(data)
    return None
if __name__ == '__main__':
    dictvec()

在这里插入图片描述
inverse_transform(data)方法作用:把转换成矩阵的数据转换成原来的数据类型

    print(dict.get_feature_names())
    #把转换成矩阵的数据转换成原来的数据类型
    print(dict.inverse_transform(data))

    print(data)

执行结果:
在这里插入图片描述

总结:字典数据抽取:把字典中⼀些类别数据,分别进⾏转换成特征
one-hot编码

文本特征抽取

图1
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
注意:CountVectorizer()不像DictVectorizer()一样有sparse缺省值,所以不能直接将其转换成one-hot矩阵,得借助toarray()方法来转换
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
实操:
1、导包

from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer

2、写countvect函数

def countvec():
    """
    对文本进行特征值化
    :return: None
    """
    cv = CountVectorizer()
    data = cv.fit_transform(["life is short,i like python", "life is long,i dislike python"])
    print(data)
    return None
if __name__ == "__main__":
    countvec()

3、执行结果
在这里插入图片描述
显然,这种结果也不直观
4、改进
运用get_feature_names()函数来输出纵坐标字符列表
运用toarray()函数来将输出矩阵转换成更加直观的one-hot矩阵

def countvec():
    """
    对文本进行特征值化
    :return: None
    """
    cv = CountVectorizer()

    data = cv.fit_transform(["life is short,i like python", "life is long,i dislike python"])
    print(cv.get_feature_names())
    print(data.toarray())

    return None


if __name__ == "__main__":
    countvec()

5、输出
在这里插入图片描述
横坐标:表示每句话里出现的内容,这里有两句话(一个列表里装了两个字符串),所以矩阵有两个行向量。
纵坐标:表示每个单词在每个句子中出现的次数,不重复出现,单个字母也不统计(没有分类依据)

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值