贝叶斯任务代码笔记

最新推荐文章于 2023-09-06 11:14:02 发布

MoneyFxxker

最新推荐文章于 2023-09-06 11:14:02 发布

阅读量259

点赞数

分类专栏：机器学习文章标签：贝叶斯

本文链接：https://blog.csdn.net/MoneyFxxker/article/details/84030929

版权

机器学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

贝叶斯代码任务笔记

4.1 在3.1的基础上，完成选取所有词中前5000个出现频率最高的词为字典构造TF-IDF特征矩阵，然后训练模型

def get_ti_idf(features,top_k=5000):
 
   tfidf = TfidfVectorizer(token_pattern=r"(?u)\b\w\w+\b", stop_words=stopwords，max_features=top_k)

   return weight

其中top_k参数调整为5000，将此传入tf-idf的算法模型中，参数是max_features，这个参数的意思是去频率前N个数，不填写则默认为全部词语。

4.2 基于贝叶斯算法和编辑距离的单词拼写纠正

def load_all_words(data_dir):

    text = open(data_dir).read().replace('\n', '').lower()
    all_words = re.findall('[a-z]+', text)
    return all_words

open方法中replace方法将换行符（‘\n’）替换成空格（’ ‘）
re.finadll方法是正则表达式进行匹配和替换

4.3 基于贝叶斯算法的中文新闻分类
分类代码思路：

对传入的字符串进行清洗，消除其中的非中文字符
用jieba分词器分词
获得tf_idf矩阵

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

MoneyFxxker

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
贝叶斯任务代码笔记

贝叶斯代码任务笔记4.1 在3.1的基础上，完成选取所有词中前5000个出现频率最高的词为字典构造TF-IDF特征矩阵，然后训练模型def get_ti_idf(features,top_k=5000): tfidf = TfidfVectorizer(token_pattern=r"(?u)\b\w\w+\b", stop_words=stopwords，max_features=...
复制链接

扫一扫