在中文分词中遇到的问题

最近在做毕业设计,苦恼的是涉及到自然语言中文分词,本来又不是太懂这一领域,接着就进行分词,然后就来事了,首先对于我自己来说可选的分词工具有以下是三个:
jieba分词
pkuseg分词
BiLstm+CRF分词
接着结巴分词算是分词里的元老了吧,但是分词不是太准确,不太想用,
然后pkuseg呢,在之前是大名鼎鼎,闻其声就很吊。北大开发的,但是经过一番尝试真的是把我坑的啊,
我自己测试的150万条数据,jieba用时大概五分钟吧,pkuseg预耗时直接给我干到720个小时,我尼玛,一开始我还以为是我自己电脑配置不行。

然后呢由于以上原因,我转而投到第三种分词方法上,是基于深度学习的,但是在使用时有一个很麻烦的事情,虽然分词成功了,然后准确率也挺高的

但是呢,举个例子吧。

a = " 一位戴着帽子的大妈在路上走"

这是要分词的字符串,分词的得到是也是一个字符串,只不过词和词之间用逗号给隔开了,是这样的效果:

b = " 一位 戴着 帽子 的 大妈 在 路上 走"

可是根据程序需要呢,我想要把b转换成set()格式,前两种方法都可以毫无压力的转换,但是到第三种,我就不行了,Python不是太熟,平时就水的一比,但是今天在我不懈的坚持下,我终于瞎鼓捣鼓捣出来了。记录一下,以后碰到还可能会用到,直接上代码

reference = '一位 大妈 在 路上 走'
a = reference.split( )
b = set(a)
print(b)

‘’‘
{'走', '路上', '在', '大妈', '一位'}
’‘’

这就是结果,看吧,很简单,
但奈何自己编程太low了,然后在这里贴一个链接,上面的字符串处理函数,我觉得还是挺全的,基本上都是你平时用得到的:

https://www.jb51.net/article/173122.htm

好了,今天就到这里了

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值