文本蕴含日记1——中文分词

1、什么是分词
分词是指将连续的字序列按照一定的规范重新组合成词序列的过程。简而言之,就是将一个句子中的字重新划分组合成词。
2、为什么要强调中文分词技术
之所以特地强调中文分词,是因为中文在行文上的特殊性。
以英文为代表的拉丁语系语言,英文以空格作为天然的分隔符,而中文词语之间没有分隔。古代汉语中除了连绵词和人名地名等,词通常就是单个汉字,所以当时没有分词书写的必要。而现代汉语中双字或多字词居多,一个字不再等同于一个词。所以现代汉语的基本表达单元虽然为词,但由于人们认识水平的不同,会将一个句子的词划分成不同的样子。
3、中文分词技术的作用
中文分词是***文本挖掘***的基础。对于输入的一端中文,如果可以成功的进行中文分词,可以实现电脑自动识别语句涵义。
中文分词对于搜索引擎来说,最重要的是把最相关的结果排在最前面,即***相关度排序***。从定性分析来说,搜索引擎的分词算法不同,词库的不同都会影响页面的返回结果。
4、算法分类
现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。
(1)字符匹配
又叫机械分词方法,它是按照一定的策略将待分析的句子与一个充分大的
机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功,识别
出一个词。比如“武汉市长江大桥”,如果设置切词最大长度为5,则正向识别出
的就是“武汉市长江”、“大桥”;如果设置切词最大长度为4,则识别出“武汉市
长”、“江大桥”。所以这个方法容易出现歧义切分、未登录词识别问题。未登录
词指没有在切词词典中出现的词,例如人名,这样一般会被切成单字。
按照扫描方向的不同,字符串匹配分词方法可以分为正向匹配和逆向匹
配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最
短)匹配。
改进的方法有两种,一种方法是改进扫描方式,称为特征扫描或标志切
分,优先在待分析字符串中识别和切分出一些带有明显特征的词,以这些词作
为断点,可以将原句子分为较小的串再来进行机械分词,从而减少匹配的错误
率 。另一种方法是将分词和词类标注结合起来,利用丰富的词类信息对分词
决策提供帮助,并且在标注过程中又反过来对分词结果进行检验、调整,从而
极大地提高切分的准确率。
(2)理解法
通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想就
是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现
象。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控
部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分
词歧义进行判断,即它模拟了人对句子的理解过程。这种分词方法需要使用大
量的语言知识和信息,目前还处在实验阶段。
(3)统计法
从形式上看,词是稳定的字的组合,因此在一篇文章中,相邻字同时出现
的次数越多,越有可能构成一个词,因此字与字相邻共现的频率能够较好的
反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统
计,计算它们的互现信息。定义两个字的互现信息,计算两个汉字X、Y的相
邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高
于某一个阈值时,便可认为此字组可能构成了一个词。
5、结巴分词
结巴分词涉及到的算法包括:基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG);采用了动态规划查找最大概率路径,找出基于词频的最大切分组合;对于未登录词,采用了基于汉字成词能力的HMM模型,使用了Viterbi算法。
结巴分词支持三种分词模式:
(1)精确模式:试图将句子最精确地切开,适合文本分析;
(2)全模式:把句子中所有的可以成词的词语都扫描出来,速度非常快,但是不能解决歧义问题。
(3)搜索引擎模式:在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
代码下载:完整代码,可直接运行 ;运行版本:2022a或2019b或2014a;若运行有问题,可私信博主; **仿真咨询 1 各类智能优化算法改进及应用** 生产调度、经济调度、装配线调度、充电优化、车间调度、发车优化、水库调度、三维装箱、物流选址、货位优化、公交排班优化、充电桩布局优化、车间布局优化、集装箱船配载优化、水泵组合优化、解医疗资源分配优化、设施布局优化、可视域基站和无人机选址优化 **2 机器学习和深度学习方面** 卷积神经网络(CNN)、LSTM、支持向量机(SVM)、最小二乘支持向量机(LSSVM)、极限学习机(ELM)、核极限学习机(KELM)、BP、RBF、宽度学习、DBN、RF、RBF、DELM、XGBOOST、TCN实现风电预测、光伏预测、电池寿命预测、辐射源识别、交通流预测、负荷预测、股价预测、PM2.5浓度预测、电池健康状态预测、水体光学参数反演、NLOS信号识别、地铁停车精准预测、变压器故障诊断 **3 图像处理方面** 图像识别、图像分割、图像检测、图像隐藏、图像配准、图像拼接、图像融合、图像增强、图像压缩感知 **4 路径规划方面** 旅行商问题(TSP)、车辆路径问题(VRP、MVRP、CVRP、VRPTW等)、无人机三维路径规划、无人机协同、无人机编队、机器人路径规划、栅格地图路径规划、多式联运运输问题、车辆协同无人机路径规划、天线线性阵列分布优化、车间布局优化 **5 无人机应用方面** 无人机路径规划、无人机控制、无人机编队、无人机协同、无人机任务分配 **6 无线传感器定位及布局方面** 传感器部署优化、通信协议优化、路由优化、目标定位优化、Dv-Hop定位优化、Leach协议优化、WSN覆盖优化、组播优化、RSSI定位优化 **7 信号处理方面** 信号识别、信号加密、信号去噪、信号增强、雷达信号处理、信号水印嵌入提取、肌电信号、脑电信号、信号配时优化 **8 电力系统方面** 微电网优化、无功优化、配电网重构、储能配置 **9 元胞自动机方面** 交通流 人群疏散 病毒扩散 晶体生长 **10 雷达方面** 卡尔曼滤波跟踪、航迹关联、航迹融合

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值