![69f57e826940c08948fc0af56ca3d9da.png](https://i-blog.csdnimg.cn/blog_migrate/20838e27602529e40a5792c812b45182.png)
1.1 jieba
(1)Python中文分词 jieba 十五分钟入门与进阶
https://blog.csdn.net/FontThrone/article/details/72782499blog.csdn.net(2 )GitHub
https://github.com/fxsjy/jiebagithub.com(3)调整词典
- 使用
add_word(word, freq=None, tag=None)
和del_word(word)
可在程序中动态修改词典。 - 使用
suggest_freq(segment, tune=True)
可调节单个词语的词频,使其能(或不能)被分出来。 - 注意:自动计算的词频在使用 HMM 新词发现功能时可能无效。
1.2 MultinomialNB
在scikit-learn中,一共有3个朴素贝叶斯的分类算法类。分别是GaussianNB,MultinomialNB和BernoulliNB。其中GaussianNB就是先验为高斯分布的朴素贝叶斯,MultinomialNB就是先验为多项式分布的朴素贝叶斯,而BernoulliNB就是先验为伯努利分布的朴素贝叶斯。
这三个类适用的分类场景各不相同,一般来说,如果样本特征的分布大部分是连续值,使用GaussianNB会比较好。如果如果样本特征的分大部分是多元离散值,使用MultinomialNB比较合适。而如果样本特征是二元离散值或者很稀疏的多元离散值,应该使用BernoulliNB。
sklearn.naive_bayes.MultinomialNB - scikit-learn 0.21.3 documentationscikit-learn.org![d86ced9ec6c6808e3b6a5e918039602d.png](https://i-blog.csdnimg.cn/blog_migrate/c0cd673be088aa342a86f8bfcc7c7780.png)
![e672fc60a97f6bae9c6aa914c5c3d707.png](https://i-blog.csdnimg.cn/blog_migrate/5ccadba25cfc8f681523abe7080d4724.jpeg)
1.3 LogisticRegressionCV
3.2.4.1.5. sklearn.linear_model.LogisticRegressionCV - scikit-learn 0.21.3 documentationscikit-learn.org scikit-learn 逻辑回归类库使用小结www.cnblogs.com https://blog.csdn.net/evolution23/article/details/85028423blog.csdn.net