大数据搜索引擎课程设计——中文分词算法设计与实现

最新推荐文章于 2024-04-28 18:20:22 发布

BatFor、布衣

最新推荐文章于 2024-04-28 18:20:22 发布

阅读量1.2k

点赞数

分类专栏： Java 文章标签： Java 中文分词课程设计算法设计

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_35268841/article/details/102657926

版权

本文介绍了大数据搜索引擎课程设计中的中文分词算法，包括正向最大匹配法(FMM)、逆向最大匹配法(BMM)和双向最大匹配法，并探讨了分词策略和程序设计，使用哈希表实现。实验总结了分词过程中遇到的问题和应用价值。

摘要由CSDN通过智能技术生成

原文链接：http://www.facesjoy.cn/article/2019/10/21/12.html

一、实验目的

了解中文分词意义

掌握中文分词的基本方法

二、实验环境

Win10 64 位

JDK8.0

三、实验设计

（一）分词策略

目前较为成熟的中文分词方法主要有：

1.基于词表的分词算法

2.基于统计模型的分析算法

3.基于序列标注的分词算法

我设计的是基于词表的分词算法，其中运用了正向最大匹配法和逆向最大匹配法结合的方式。基本思路是：

1. 正向最大匹配法(FMM)：

概念：对于输入的一个文本序列从左至右，以贪心的算法切分出当前位

分词原理：单词的颗粒度越大，所能表示的含义越确切

分词步骤：首先我们有一个词库 worddict2.txt 还一个待分词的字符串 s，首先我们计算得到词库中最长词语的长度假设为 m，从字符串第一个位置开始，选择一个最大长度的词长片段，如果该字符串的长度不足最大词长，则选择该全部字符串；判断选择出来的字符串片段是否在词库中，若在，则将此词分离出来，若不在，则从右边开始，逐一减少一

最低0.47元/天解锁文章

BatFor、布衣

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

BatFor、布衣 CSDN认证博客专家 CSDN认证企业博客

码龄8年

71: 原创

23万+: 周排名

184万+: 总排名

15万+: 访问

: 等级

2149: 积分

110: 粉丝

151: 获赞

106: 评论

1111: 收藏

私信

关注

分类专栏

git/github 1篇
写作 4篇
datawhale 6篇
pytorch 5篇
Java 17篇
机器学习 8篇
目标检测 3篇
Python3 12篇
NLP 2篇
sqlserver 1篇
设计模式 1篇
jsp学习笔记 3篇
C# 9篇
MapReduce编程 1篇
爬虫 9篇
mysql 3篇

最新评论

NLP之关系抽取（信息抽取、三元组抽取）（附pytorch代码）
plasf123: 请问一下您有没有官方数据集嘞 1972369322@qq.com感激涕零
NLP之关系抽取（信息抽取、三元组抽取）（附pytorch代码）
plasf123: from ..parameter import Parameter ImportError: attempted relative import with no known parent package 请问一下这个报错是因为有一个参数文件开没有加载进来吗
基于Django2、echarts的爬取智联招聘信息数据可视化系统
aa11111_: 怎么下载不了了
NLP之关系抽取（信息抽取、三元组抽取）（附pytorch代码）
weixin_52437433: 请问RuntimeError: An attempt has been made to start a new process before the current process has finished its bootstrapping phase.报错怎么解决
NLP之关系抽取（信息抽取、三元组抽取）（附pytorch代码）
weixin_52437433: 请问RuntimeError: An attempt has been made to start a new process before the current process has finished its bootstrapping phase.报错怎么解决

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。