分词
文章平均质量分 67
分词(Tokenization)是将连续的文本序列分割成有意义的单元(称为标记或词语)的过程。在自然语言处理任务中,分词是一项重要的预处理步骤,它将文本转化为可以被计算机处理的基本单元。
征途黯然.
Hold me hard and mellow.
展开
-
【自然语言处理】N-最短路径法进行中文分词
本文摘要· 理论来源:【统计自然语言处理】第七章 自动分词· 参考文章:https://www.cnblogs.com/Finley/p/6619187.html· 代码目的:手写N-最短路径法进行中文分词作者:CSDN 征途黯然. N最短路径分词 N最短路径算法是一种基于词典的分词算法. 每个句子将生成一个有向无环图, 每个字作为图的一个定点, 边代表可能的分词. 在上图中, 边的起点为词的第一个字, 边的终点为词尾的下一个字. 边1表示"我"字单字成词, 边2表示"只是"可..原创 2021-09-11 10:54:20 · 2518 阅读 · 0 评论 -
【自然语言处理】正向、逆向、双向最长匹配算法的 切分效果与速度测评
本文摘要· 理论来源:【统计自然语言处理】第七章 自动分词;【自然语言处理入门】第二章 词典分词;· 代码目的:手写三种算法:正向最长匹配、逆向最长匹配、双向最长匹配,比较它们的单词切分效果与速度· 电脑配置:联想拯救者Y7000,Intel(R) Core(TM) i5-8300H CPU @ 2.30GHz 2.30 GHz作者:CSDN 征途黯然.一、关于测试用的语料库 采用了2个预料库,一个是第二届国际分词的PKU测试集语料库(55303词),一个是网上随便找的(248303..原创 2021-10-14 14:13:01 · 1504 阅读 · 0 评论 -
【自然语言处理】hmm隐马尔可夫模型进行中文分词 代码
本文摘要· 理论来源:【统计自然语言处理】第七章 自动分词;【统计学习方法】第十章 隐马尔可夫模型· 代码目的:手写HMM进行中文分词作者:CSDN 征途黯然.一、数据集 数据集的形式如下:新 B华 M社 E北 B京 E二 B月 E十 B二 M日 E电 S中 B国 E十 B四 E…… 数据集已经标注好了四种状态(B、M、E、S),每个句子之间用换行分割。 获取本数据集或者代码工程,可以关注公众号‘三黄工作室’回复‘中文分词’。二、代码介绍 ..原创 2021-09-29 09:26:27 · 2632 阅读 · 7 评论