笔记
文章平均质量分 55
拉克丝の碎花裙
这个作者很懒,什么都没留下…
展开
-
隐马尔可夫模型(三): 算法分类、解决方法
2021SC@SDUSC前向算法对于评估问题(Evaluation)给定 HMM,即,求某个观察序列的概率。例如:给定一个天气的隐马尔可夫模型,包括第一天的天气概率分布,天气转移概率矩阵,特定天气下树叶的湿度概率分布。求第一天湿度为 1,第二天湿度为 2,第三天湿度为 3 的概率。思路一:找到所有状态序列,得到各状态概率,得到每种状态概率对应的观察概率,求和。即:找到每一个可能的隐藏状态,并且将这些隐藏状态下的观察序列概率相加。对于上面那个(天气)例子,将有 3^3 = 27原创 2021-12-28 14:28:46 · 466 阅读 · 0 评论 -
隐马尔可夫模型(二):模型详解
2021SC@SDUSCHMM图解:HMM的组成例如,N 个袋子,每个袋子中有 M 种不同颜色的球。选择一个袋子,取出一个球,得到球的颜色。状态数为 N(袋子的数量) 每个状态可能的符号数 M(不同颜色球的数目) 状态转移概率矩阵 A =(从一只袋子(状态 Si) 转向另一只袋子(状态 Sj ) 取球的概率) 从状态 Sj 观察到某一特定符号 vk 的概率分布矩阵为: (从第 j 个袋子中取出第 k 种颜色的球的概率) 初始状态的概率分布为:一般将一个隐马尔可夫模型记为:.原创 2021-12-28 13:34:14 · 1132 阅读 · 0 评论 -
隐马尔可夫模型(一):模型介绍
马尔可夫模型概念导入在某段时间内,交通信号灯的颜色变化序列是:红色 - 黄色 - 绿色 - 红色。在某个星期天气的变化状态序列:晴朗 - 多云 - 雨天。像交通信号灯一样,某一个状态只由前一个状态决定,这就是一个一阶马尔可夫模型。而像天气这样,天气状态间的转移仅依赖于前 n 天天气的状态,即状态间的转移仅依赖于前 n 个状态的过程。这个过程就称为n 阶马尔科夫模型。不通俗的讲,马尔可夫模型(Markovmodel)描述了一类重要的随机过程,随机过程又称随机函数,是随时间而随机变化的过程。原创 2021-12-28 13:04:37 · 1159 阅读 · 0 评论 -
jieba库:Tokenizer()类详解:(七)cut_DAG各个模式
2021SC@SDUSC原创 2021-12-28 09:13:22 · 731 阅读 · 0 评论 -
jieba库:Tokenizer()类详解:(六)cut,cut_for_search
2021SC@SDUSCcut def cut(self, sentence, cut_all=False, HMM=True, use_paddle=False): """ The main function that segments an entire sentence that contains Chinese characters into separated words. Parameter:原创 2021-12-28 09:07:04 · 2604 阅读 · 0 评论 -
jieba库:Tokenizer()类详解:(二)DAG词图类
2021SC@SDUSC原创 2021-12-27 21:53:28 · 95 阅读 · 0 评论 -
jieba库:Tokenizer()类详解(一)初始化
2021SC@SDUSC原创 2021-12-27 21:45:58 · 1187 阅读 · 0 评论 -
jieba库:POSTokenizer类cut()方法详解
2021SC@SDUSC原创 2021-11-09 22:30:39 · 592 阅读 · 0 评论 -
jieba库:Tokenizer()类详解:(三)词典增删词
2021SC@SDUSC源码: def add_word(self, word, freq=None, tag=None): """ Add a word to dictionary. freq and tag can be omitted, freq defaults to be a calculated value that ensures the word can be cut out. """原创 2021-11-09 22:06:45 · 1442 阅读 · 0 评论 -
jieba库:Tokenizer()类详解:(四)加载用户自定义词典
2021SC@SDUSC源码:def load_userdict(self, f): ''' Load personalized dict to improve detect rate. Parameter: - f : A plain text file contains words and their ocurrences. Can be a file-like object, or原创 2021-11-09 21:48:43 · 1382 阅读 · 0 评论 -
更多代码阅读及测试(ChineseAnalyzer for Whoosh 搜索引擎)
2021SC@SDUSC原创 2021-10-29 15:06:00 · 164 阅读 · 0 评论 -
基于 TextRank 算法的关键词抽取
2021SC@SDUSC原创 2021-10-28 18:59:19 · 954 阅读 · 0 评论 -
更多代码阅读及测试(命令行分词)
2021SC@SDUSC目录原创 2021-10-27 15:03:12 · 72 阅读 · 0 评论 -
jieba库:Tokenizer()类详解:(五)tokenize分词
官方的文档里测试已经很明确了,就不在这里赘述了,分析一下源码好了~原创 2021-10-27 15:02:35 · 782 阅读 · 0 评论 -
更多代码阅读及测试(并行分词)
2021SC@SDUSC目录原创 2021-10-27 15:01:38 · 55 阅读 · 0 评论 -
更多代码阅读及测试(分词)
2021SC@SDUSC目录1,测试精确分词#encoding=utf-8import syssys.path.append("../")import jiebadef cuttest(test_sent): result = jieba.cut(test_sent) print(" / ".join(result))if __name__ == "__main__": cuttest("隐马尔可夫") cuttest("“Microsoft”原创 2021-10-27 14:10:08 · 331 阅读 · 0 评论 -
更多代码阅读及测试(词性标注)
2021SC@SDUSC原创 2021-10-25 18:55:17 · 98 阅读 · 0 评论 -
基于TF-IDF算法的关键词提取
2021SC@SDUSC原创 2021-10-25 17:51:19 · 185 阅读 · 0 评论 -
更多代码阅读及测试(词典操作)
1,加载词典 使用jieba.load_userdict(file)方法,加载自定义的词典,file为词典的路径 范例:词频引起的问题: 添加词或者加载自定义词典时,有时我们会发现有些词依旧不是我们想要切分的样式,即使我们已经添加了...原创 2021-10-25 15:42:31 · 237 阅读 · 0 评论 -
Jieba分词代码分析
文章目录jieba特点安装说明算法主要功能1. 分词更多代码阅读及测试(分词)2. 添加自定义词典载入词典调整词典更多代码阅读及测试(词典操作)3. 关键词提取基于 TF-IDF 算法的关键词抽取基于 TextRank 算法的关键词抽取基本思想:使用示例:更多代码阅读及测试(关键词提取)4. 词性标注更多代码阅读及测试(词性标注)5. 并行分词更多代码阅读及测试(并行分词)6. Tokenize:返回词语在原文的起止位置更多代码阅读及测试(Tokenize)7. ChineseAnalyzer for Wh原创 2021-10-09 19:13:10 · 583 阅读 · 0 评论 -
2021-09-29
jieba分词项目分析队员分工 代晋鹏-隐马尔科夫模型项目安装 由于python项目中某些包windows不支持使用,所以使用Linux操作系统 使用VMware 16.0,原创 2021-09-29 19:27:15 · 69 阅读 · 0 评论