Sklearn特征抽取API
特征抽取对文本等数据进行特征值化
Sklearn:对于特征处理提供了强大的接口
特征工程:把拿到的数据集里的那些字符串、汉字等无法被用于直接运算的数据转化成可运算的数字。
特征工程的意义:直接影响预测结果
需要用到的类:sklearn.feature_extraction
字典特征抽取
作用:对字典数据进行特征值化
# 特征抽取
#
# 导入包
# from sklearn.feature_extraction.text import CountVectorizer
#
# # 实例化CountVectorizer
#
# vector = CountVectorizer()
#
# # 调用fit_transform输入并转换数据
#
# res = vector.fit_transform(["life is short,i like python","life is too long,i dislike python"])
#
# # 打印结果
# print(vector.get_feature_names())
#
# print(res.toarray())
eg:
1.导入包
from sklearn.feature_extraction import DictVectorizer
2.定义字典数据抽取方法
def dictvec():
"""
字典数据抽取
:return: None
"""
# 实例化DictVectorizer()
dict = DictVectorizer()
3.fit_transform(a)方法功能为将所给字典数据(a/列表形式)转换成sparse矩阵形式
#调用fit_transform
data = dict.fit_transform([{'city': '北京','temperature': 100}, {'city': '上海','temperature':60}, {'city': '深圳','temperature': 30}])
print(data)
return None
if __name__ == '__main__':
dictvec()
输出结果:
但这样观察转换的数据并不直观,解决方法只需要将DictVectorizer类里的缺省值sparse值改为False(默认为Ture)即:
dict = DictVectorizer(sparse=False)
执行结果变为:
但这样看还是无法理解矩阵中每个元素代表的含义
这里就需要用到方法get_feature_names()
它会返回一个矩阵,需要定义一个变量去接收或者直接print输出
它的作用是将输出矩阵对应纵坐标的特征名称以一行输出,如图
dict = DictVectorizer(sparse=False)
#调用fit_transform
data = dict.fit_transform(data_dict)
print(dict.get_feature_names())
print(data)
return None
if __name__ == '__main__':
dictvec()
inverse_transform(data)方法作用:把转换成矩阵的数据转换成原来的数据类型
print(dict.get_feature_names())
#把转换成矩阵的数据转换成原来的数据类型
print(dict.inverse_transform(data))
print(data)
执行结果:
总结:字典数据抽取:把字典中⼀些类别数据,分别进⾏转换成特征
one-hot编码
文本特征抽取
注意:CountVectorizer()不像DictVectorizer()一样有sparse缺省值,所以不能直接将其转换成one-hot矩阵,得借助toarray()方法来转换
实操:
1、导包
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
2、写countvect函数
def countvec():
"""
对文本进行特征值化
:return: None
"""
cv = CountVectorizer()
data = cv.fit_transform(["life is short,i like python", "life is long,i dislike python"])
print(data)
return None
if __name__ == "__main__":
countvec()
3、执行结果
显然,这种结果也不直观
4、改进
运用get_feature_names()函数来输出纵坐标字符列表
运用toarray()函数来将输出矩阵转换成更加直观的one-hot矩阵
def countvec():
"""
对文本进行特征值化
:return: None
"""
cv = CountVectorizer()
data = cv.fit_transform(["life is short,i like python", "life is long,i dislike python"])
print(cv.get_feature_names())
print(data.toarray())
return None
if __name__ == "__main__":
countvec()
5、输出
横坐标:表示每句话里出现的内容,这里有两句话(一个列表里装了两个字符串),所以矩阵有两个行向量。
纵坐标:表示每个单词在每个句子中出现的次数,不重复出现,单个字母也不统计(没有分类依据)