一 名词:
机器学习的数据:文件csv
pandas:读取工具
numpy:释放了GIL锁,真正的多线程
可用数据集:kaggle-大数据竞赛平台,真实数据,数据量大;UCI-涵盖了科学生活/经济等领域;scikit-learn:数据量小,学习方便
结构:特征值+目标值
dataFrame 缺失值,数据转换
机器学习:重复值,不需要处理
1.字典数据抽取:把字典中一些类别的数据,分别进行转换成特征数据
数组形式:有类别的这些特征,先要转换字典数据,
one-hot编码:我们作的是为每个类别生成一个布尔列,这些列中只有以列可以为每个杨门取值1,因此术语一个热编码
2.文本特征抽取:对文本数据进行特征值化;(CountVectorize())
对单个英文字母不统计,没有分类的依据
中文:需要分词后使用,jieba分词
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction import DictVectorizer
import jieba
def dicvec():
###dict = DictVectorizer(sparse=False)
dict = DictVectorizer()
data = dict.fit_transform([{'city': 'shanghai', 'temperature': 100.2}, {'city': 'beijing', 'temperature': 10},
{'city': 'hangzhou', 'temperature': 85}])
print(dict.get_feature_names())
print(data)
print("#"*50)
print(dict.inverse_transform(data))
return None
dicvec()
vector = CountVectorizer()
res = vector.fit_transform(["Life is short , i like python", "Life is too long , i dislike python"])
print(vector.get_feature_names())
print("*"*30)
print(res.toarray())
con1 = jieba.cut("人生苦段,我喜欢python", "人生漫长,我不喜欢python")
print("hello----------")
print(con1)
c1 = ' '.join(con1)
content1 = list([con1])
print(content1)