概念:
领域:
内容:
什么是机器学习:
sklearn:
one—hot编码:
字典特征抽取:
文本特征抽取:
from sklearn.feature_extraction.text import CountVectorizer
import jieba
cv = CountVectorizer()
text = '人生苦短。我用Python,你用不用,我数学看不懂'
te = ' '.join(list(jieba.cut(text)))
data = cv.fit_transform([te])
print(cv.get_feature_names())
print(data)
tf-idf:
TF-IDF的主要思想是:
如果某个词或短语在一篇文章中出现的概率高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。
from sklearn.feature_extraction.text import CountVectorizer,TfidfVectorizer
import jieba
tf = TfidfVectorizer() # stop_words= 停用词
text = '人生苦短。我用Python,你用不用,我数学看不懂'
te = ' '.join(list(jieba.cut(text)))
data = tf.fit_transform([te])
print(tf.get_feature_names())
print(data)
结果:
反映的是重要性程度。
特征预处理:
通过特定的统计方法(数学方法)将数据转换成算法要求的数据
归一化:
标准化:
在已有样本比较多的情况下比较稳定,适合嘈杂大数据场景
缺失值处理: