![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
HanLP
文章平均质量分 91
弱鸡萌新
这个作者很懒,什么都没留下…
展开
-
自然语言处理入门-第4章 隐马尔可夫模型与序列标注
HMM序列标注问题隐马尔可夫模型1.HMM与马尔可夫假设 序列标注问题 序列标注问题是给定一个序列x=x1x2…xn,找出序列中每个元素对应的标签y=y1y2…yn的问题。其中y的取值范围称为标注集。 中文分词可以当作是一个序列标注问题。对于每个词,可以用标注集为{B,E,M,S}的状态序列标注,B和E表示词首和词尾;S表示单字成词;M表示词中。标注之后,B和E标签区间对应一个词,S字符对应一个单字词。 此外,词性标注和NER问题也是序列标注问题。 隐马尔可夫模型 HMM是描述两个时序序列联合分布p(x,y原创 2021-12-13 19:53:06 · 2423 阅读 · 0 评论 -
自然语言处理出门 第二章 词典分词
本章节主要讲述单词的切分算法、如何构建并不断优化字典树以及分词的准确率评测。 中文分词指的是将一段文本拆分成一系列单词的过程 文章目录什么是词 什么是词原创 2021-04-12 21:23:38 · 502 阅读 · 0 评论 -
自然语言处理入门 第一章 新手上路
开始学习自然语言处理方面的知识了,仅以此记录下学习历程。 1.1自然语言与编程语言 自然语言是非结构化的,具有歧义性、容错性、易变性、简略性的特点。 非结构化 编程语言是结构化比较强的,比如创建类,调用方法,都是遵循一定的格式的,而自然语言中不存在这样的显式结构。 举个例子“苹果的创始人是乔布斯,它的logo是苹果”。计算机需要分析出下面的结论: 首先,需要对这句话进行序列化:“苹果 的 创始人 是 乔布斯 , 它 的 logo 是 苹果”; 其中,第一个“苹果”指的是苹果公司,第二个“苹果”是水果原创 2021-03-30 15:39:21 · 301 阅读 · 0 评论