基于分词的朴素贝叶斯分类器的构造和应用 毕业论文+任务书+开题报告+文献综述+外文翻译及原文+Python代码及词库

!!! 有需要的小伙伴可以通过文章末尾名片咨询我哦!!!

 💕💕作者:小马
💕💕个人简介:混迹在java圈十年有余,擅长Java、微信小程序、Python、Android等,大家有这一块的问题可以一起交流!
💕💕各类成品java系统 。javaweb,ssh,ssm,springboot等等项目框架,源码丰富,欢迎咨询交流。学习资料、程序开发、技术解答、代码讲解、源码部署,需要请看文末联系方式。

基于分词朴素贝叶斯分类器的构造与应用

【摘要】  众多国际国内外学者和研究人员在近几年来的努力下,现以形成了多种中文分词算法,目前主要的算法有基于词典、基于理解和基于统计的三类,实际运用时经常相互结合使用。目前的系统都主要以这三类算法为主。而众所周知汉语有着相当的复杂性,新词也随时代变迁也在不断涌出,目前这三类算法并不能更好地满足我们实际生活的需要。

因此本文在这些算法的基础上,提出基于贝叶斯网络构建分词模型,在模型框架下一并完成交叉、组合歧义等等。经过运算和处理以后,能够让新的算法可以整合现有的常用算法的长处,规避他们的缺陷,有效提高分词的效率。

在测试条件下的检测结果表明,新算法进行分词的效果要较好,能够很好的对歧义进行处理,进行未登录词的处理,可以很好的满足对各种中文相关信息的处理需求。

Construction and Application of Naive Bayesian Classifier Based on Word Segmentation

【Abstract】   With the efforts of many scholars and researchers at home and abroad in recent years,many Chinese word segmentation algorithms have been formed. At present,the main algorithms are dictionary-based,comprehension-based and statistics-based. They are often used together in practice. Current systems are mainly based on these three kinds of algorithms. As we all know,Chinese has considerable complexity, and new words are constantly emerging with the changes of the times. At present, these three kinds of algorithms can not better meet the needs of our real life.

Therefore,on the basis of these algorithms, this paper proposes a word segmentation model based on Bayesian network components,and completes crossover, combination ambiguity and so on under the model framework. After these processing, the algorithm can fully absorb the advantages of various common algorithms,avoid their limitations, and effectively improve the efficiency of word segmentation.

The test results show that the new algorithm performs better in word segmentation. It can process ambiguity and unlisted words well. It can satisfy the processing requirements of various Chinese related information.

目 录

1 绪 论

1.1研究背景与意义

1.2中文分词现状

1.3 论文主要内容

2相关技术分析

2.1常见的分词算法

2.1.1基于词库的分词算法

2.1.2基于理解的分词算法

2.1.3基于统计的分词算法

2.2中文分词的技术难点

2.2.1歧义处理

2.2.2新词识别

3分词词库

3.1词库组成

3.2 词库的构建

3.3 词库的更新

4 改进的贝叶斯定理分词算法

4.1 算法概述

4.2 歧义处理

4.3 算法步骤

5 算法实现

5.1 开发环境

5.2 实验数据

5.3 实验方法过程

5.4 实验结果展示

5.5结果分析

结 论

参考文献

附 录

附录 A

附录 B

致 谢

图目录

图2.1 正向最大匹配法步骤示意图

图2.2基于理解的中文分词系统框架图

图2.3基于统计的中文分词算法步骤示意图

图2.4歧义处理示意图

图2.5 新词内容示意图

图3.1 词库联系示意图

图3.2词库构建步骤示意图

图3.3词库更新步骤示意图

图4.1基于词库与贝叶斯原理的算法示意图

图4.2系统功能结构组织图

图4.3分词词库更新步骤示意图

图4.4算法执行步骤示意图

图5.1数据类别分布条形图

表目录

表5.1测试实例中时间、年龄等量词的切分效果

表5.2测试实例中人名、地名等词的切分效果

更多项目:

另有1000+份项目源码,项目有java(包含springboot,ssm,jsp等),小程序,python,php,net等语言项目。项目均包含完整前后端源码,可正常运行!

!!! 有需要的小伙伴可以点击下方链接咨询我哦!!!

  • 30
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

程序员小马软件开发定制

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值