在中文分词中遇到的问题

最新推荐文章于 2023-09-17 02:24:03 发布

十二耳环

最新推荐文章于 2023-09-17 02:24:03 发布

阅读量593

点赞数

文章标签： python 机器学习人工智能

本文链接：https://blog.csdn.net/qq_25232685/article/details/106268818

版权

最近在做毕业设计，苦恼的是涉及到自然语言中文分词，本来又不是太懂这一领域，接着就进行分词，然后就来事了，首先对于我自己来说可选的分词工具有以下是三个：
jieba分词
pkuseg分词
BiLstm+CRF分词
接着结巴分词算是分词里的元老了吧，但是分词不是太准确，不太想用，
然后pkuseg呢，在之前是大名鼎鼎，闻其声就很吊。北大开发的，但是经过一番尝试真的是把我坑的啊，
我自己测试的150万条数据，jieba用时大概五分钟吧，pkuseg预耗时直接给我干到720个小时，我尼玛，一开始我还以为是我自己电脑配置不行。

然后呢由于以上原因，我转而投到第三种分词方法上，是基于深度学习的，但是在使用时有一个很麻烦的事情，虽然分词成功了，然后准确率也挺高的

但是呢，举个例子吧。

a = " 一位戴着帽子的大妈在路上走"

这是要分词的字符串，分词的得到是也是一个字符串，只不过词和词之间用逗号给隔开了，是这样的效果：

b = " 一位 戴着 帽子 的 大妈 在 路上 走"

可是根据程序需要呢，我想要把b转换成set()格式，前两种方法都可以毫无压力的转换，但是到第三种，我就不行了，Python不是太熟，平时就水的一比，但是今天在我不懈的坚持下，我终于瞎鼓捣鼓捣出来了。记录一下，以后碰到还可能会用到，直接上代码

reference = '一位 大妈 在 路上 走'
a = reference.split( )
b = set(a)
print(b)

‘’‘
{'走', '路上', '在', '大妈', '一位'}
’‘’

这就是结果，看吧，很简单，
但奈何自己编程太low了，然后在这里贴一个链接，上面的字符串处理函数，我觉得还是挺全的，基本上都是你平时用得到的：

https://www.jb51.net/article/173122.htm

好了，今天就到这里了

十二耳环

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
在中文分词中遇到的问题

最近在做毕业设计，苦恼的是涉及到自然语言中文分词，本来又不是太懂这一领域，接着就进行分词，然后就来事了，首先对于我自己来说可选的分词工具有以下是三个：jieba分词pkuseg分词BiLstm+CRF分词接着结巴分词算是分词里的元老了吧，但是分词不是太准确，不太想用，然后pkuseg呢，在之前是大名鼎鼎，闻其声就很吊。北大开发的，但是经过一番尝试真的是把我坑的啊，我自己测试的150万条数据，jieba用时大概五分钟吧，pkuseg预耗时直接给我干到720个小时，我尼玛，一开始我还以为是我自己电脑
复制链接

扫一扫