贝叶斯算法小理解

最新推荐文章于 2022-03-22 11:03:34 发布

晓理紫

最新推荐文章于 2022-03-22 11:03:34 发布

阅读量254

点赞数

分类专栏：机器学习 Python相关学习

本文链接：https://blog.csdn.net/u011573853/article/details/98633956

版权

Python相关学习同时被 2 个专栏收录

53 篇文章 1 订阅

订阅专栏

机器学习

34 篇文章 1 订阅

订阅专栏

贝叶斯算法

贝叶斯相关公式

贝叶斯算法初步小案例

拼写纠

正拼写纠正代码

新闻分类

常用工具

1，停用词表

停用词：语料中大量出现，没有什么意义的词

2，TF-IDF(term frequency–inverse document frequency)

词频–反转文件频率，是一种用于情报检索与文本挖掘的常用加权技术，用以评估一个词对于一个文件或者一个语料库中的一个领域文件集的重复程度。词频统计为学术研究提供了新的方法和视野。

2.1，TF 词频
词频（term frequency，TF）指的是某一个给定的词语在该文件中出现的次数。一般会先去掉停用词再统计词频

$\frac{某个词在文章中出现的次数}{文章总词数}$

2.1，idf 逆文档频率
逆向文件频率（inverse document frequency，IDF）是一个词语普遍重要性的度量。某一特定词语的IDF，可以由总文件数目除以包含该词语之文件的数目，再将得到的商取对数得到。如果某个词比较少见，但是它在这篇文章中多次出现，那么它很可能就反映了这篇文章的特性。正是我们所需要的关键词

$\log(\frac{语料库的文档总数}{包含该词的文档数})$

2.3，关键词

$关键词 = T F * I D F$

例如:假设文章长度1000词，“中国”，“蜜蜂”,"养殖"可出现20词，则这三个词频为0.02。经搜索发现，包含"的"字的网页共250亿张，假定这就是中文网页总数包含“中国”的网页有62.3亿张，包含“蜜蜂”的网页0.484亿，包含“养殖”的网页为0.973亿张

在这里插入图片描述

3，相似度
句子A:我喜欢看电视，不喜欢看电影
句子B:我不喜欢看电视，也不喜欢看电影
分词:
句子A:我/喜欢/看/电视，不/喜欢/看/电影
句子B:我/不/喜欢/看/电视，也/不/喜欢/看/电影
语料库:我，喜欢，看，电视，电影，不，也
词频:与语料库相比
句子A:我1,喜欢2,看2,电视1,电影1,不1，也0
句子B:我1，喜欢2，看2，电视1，电影1，不2，也1
词频向量:
句子A:[1,2,2,1,1,1,0]
句子B:[1,2,2,1,1,2,1]
4，语料清洗:
去掉语料中包含的停用词
5，分词，构造向量(word2vec /Gensin)

6，常用库案例

6.1 结巴分词器

支持三种分词模式：

全模式，把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义；
精确模式，试图将句子最精确地切开，适合文本分析；
搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。

#分词案例

import jieba
seg_list = jieba.cut("我今天去了南京博物馆参观", cut_all=True)#
print ("Full Mode: " + "/ ".join(seg_list))#全模式

seg_list = jieba.cut("我今天去了南京博物馆参观", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list))#精确模式

seg_list = jieba.cut("二狗子来到了电大进行学习")#默认是精确模式
print("默认是精确模式：")
print(" / ".join(seg_list))

seg_list = jieba.cut_for_search("有一条狗咬伤了一只猫，这只猫疼哭了，一只老鼠前来安慰它，被它吃了")#搜索引擎模式
print("搜索引擎模式：")
print(" / ".join(seg_list))

在这里插入图片描述

import jieba.analyse

sentence='国家公务员考试的申论应用文类试题实质是一道集概括、分析、提出和解决问题于一体的综合性试题，也可以说是一道客观、具体、凝练的小申发论述文章题目。分析历年的国考申论真题可以看出，虽然公文类试题类型多样，包括公文类和事务性文书类，题材丰富，但从题干和作答要求看，主要还是集中在对材料内容的整合分析，无需太多创造性发挥。纵观历年申论真题作答要求，应用文类试题几乎没有对文种格式作出特别要求，重在内容考查而不是行文格式。因此，考生要以平常心面对应用文类试题，准确把握作答要求，深入领会内在含义，全面把握题材、主旨和材料结构，完全可以轻松应对应用文类试题。Ｒ弧⒆既钒盐展文写作原则Ｔ则一，一切从材料中来。应用文类试题主要是对材料的总体把握和客观总结，考生必须严格坚持从材料中来，到材料中去，全面把握材料反映的问题，准确理解题材所反映的主旨。Ｔ则二，政府角度。作答应用文类试题更应注重“政府角度”，坚持所有观点都要从政府角度出发的原则，表述观点，提出解决之策。因此考生在作答时必须要站在政府人员角度去看待问题，提出问题，解决问题。Ｔ则三，掌握文体结构。虽然形式不是考查重点，但是文体结构的几大部分则必须掌握。这也是评分时的关键点。６、解答方法＃薄⒆ス丶词，明方向。作答任何题目，题干和作答要求都是我们明确作答方向和确定作答角度的关键和向导，因此考生要仔细阅读题干和作答要求，抓住关键词，明确作答方向和相关要点，整理作答思路。以２０１０年国考地市级真题为例：＃潦惺姓府准备大力宣传推进对近海水域的污染整治工作，请你结合给定资料，以市政府工作人员的身份，草拟一份宣传纲要。（２０分）Ｒ求：＃保对有关宣传内容的要点进行提纲挈领地陈述；＃玻　体现政府精神，使全市各界关心、支持污染整治工作；＃常　通俗易懂。不超过４００字！肮丶词”就是“近海水域的污染整治工作”、“　市政府工作人员的身份”、“　宣传纲要”、“　提纲挈领地陈述”、“　体现政府精神，使全市各界关心、支持污染整治工作；通俗易懂”。通过这些提示可归结出作答要点包括：污染的基本情况、问题和原因，以及的解决对策；作答思路：按照“情况－问题－原因－对策－意义”的逻辑顺序安排文章结构。＃病⒋缶殖龇ⅲ明结构。解答应用文类试题，考生要从材料的整体出发、大局出发，高屋建瓴地把握材料的主题和思想，对事件的起因、存在问题和解决对策一一明确，在阅读文章的时候就要在心里构建好文章的结构，直至最后快速解答。＃场⒗硭乘悸罚明逻辑。应用文类试题要求要有严密的逻辑思维，如“情况－问题－原因－对策－意义”，那么考生在作答之前就要先弄清楚解答的思路，统筹安排，然后脉络清晰、逻辑合理地把要表达的内容表述出来。＃础把握要求，明详略。考生要仔细阅读、分析、揣摩应用文类试题的内容要求，在答题时要详略得当、主次分明地安排各部分内容，增加文章的层次感。使阅卷老师在阅卷时能明白清晰、一目了然。＃玻埃保蹦旯考和２０１０年的考试一样，申论试卷分为了省级和地市级两套试卷，各自的能力要求也大有不同。省级申论试题更要求考生以宏观的角度看问题，更加注重看问题的深度和广度，要求考生能“深谋远虑”；地市级试题则要求考生以微观的视角观察问题，侧重考查的是具体解决实际问题的能力，要求考生能“贯彻执行”，具体作答时两者要区别对待。'
keywords = jieba.analyse.extract_tags(sentence, topK=20, withWeight=True, allowPOS=('n', 'nr', 'ns'))

# print(type(keywords))
# <class 'list'>

for item in keywords:
    print(item[0], item[1])

在这里插入图片描述

6.2，使用CountVectorizer构建向量

from sklearn.feature_extraction.text import CountVectorizer
texts=["玫瑰花 菊花  兰花 小花","小花 兰花 葵花 菊花","玫瑰花 小花", '菊花']
cv = CountVectorizer()
cv_fit=cv.fit_transform(texts)

print(cv.get_feature_names())
print(cv_fit.toarray())


print(cv_fit.toarray().sum(axis=0))

在这里插入图片描述

新闻分类器案例

$\color{red}{初步学习，记录理解，若有错望指正，谢谢}$

晓理紫

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
贝叶斯算法小理解

贝叶斯算法贝叶斯相关公式贝叶斯相关公式贝叶斯算法初步小案例拼写纠正拼写纠正代码新闻分类常用工具 1，停用词表停用词：语料中大量出现，没有什么意义的词 2，TF-IDF(term frequency–inverse document frequency) 词频–反转文件频率，是一种用于情报检索与文本挖掘的常用加权技术，用以评估一个词对于一个文件或者一...
复制链接

扫一扫

专栏目录