机器学习的数据:文件csv
使用数据库的缺点:
- 性能瓶颈,读取速度慢
- 格式不太符合机器学习要求数据的格式
pandes:读取工具 (基于numpy)
特征工程介绍
- 数据组成结构:特征值+目标值
- 列索引:特征
- 目标值:分类
- 每一行:样本
特征工程要做的事情:
- 特征抽取
- 将文本转成数值
- 解释:特征抽取对文本等数据进行特征值化
sklearn特征抽取API
sklearn.feature_extraction
- 字典特征抽取
- 作用:对字典数据进行特征值化
- 类:sklearn.feature_extraction.DictVectorizer
- DictVectorizer(sparse=True) 有参数
- DictVectorizer.fit_transform(X)
- X:字典或者包含字典的迭代器
- 返回值:返回sparse矩阵
- DictVectorizer.inverse_transform(X)
- X:array数组或者sparse矩阵
- 返回值:返回sparse矩阵
- DictVectorizer.get_feature_names()
- 返回类别名称
- DictVectorizer.transform(X)
- 按照原先的标准转换
- 文本特征抽取
- 作用:对文本数据进行特征值化
- 类:sklearn.feature_extraction.text.CountVectorizer
- CountVectorizer()
- 返回词频矩阵
- CountVectorizer.fit_transform(X)
- X:文本或者包含文本字符串的可迭代对象
- 返回值:返回sparse矩阵
- CountVectorizer.inverse_transform(X)
- X:array数组或者sparse矩阵
- 返回值:转换之前数据格式
- CountVectorizer.get_feature_names()
- 返回值:单词列表
流程:
- 实例化类CountVectorizer
- 调用fit_transform方法输入数据并转换
注意返回格式,利用toarray()进行sparse矩阵转换array数组