最近在做毕业设计,苦恼的是涉及到自然语言中文分词,本来又不是太懂这一领域,接着就进行分词,然后就来事了,首先对于我自己来说可选的分词工具有以下是三个:
jieba分词
pkuseg分词
BiLstm+CRF分词
接着结巴分词算是分词里的元老了吧,但是分词不是太准确,不太想用,
然后pkuseg呢,在之前是大名鼎鼎,闻其声就很吊。北大开发的,但是经过一番尝试真的是把我坑的啊,
我自己测试的150万条数据,jieba用时大概五分钟吧,pkuseg预耗时直接给我干到720个小时,我尼玛,一开始我还以为是我自己电脑配置不行。
然后呢由于以上原因,我转而投到第三种分词方法上,是基于深度学习的,但是在使用时有一个很麻烦的事情,虽然分词成功了,然后准确率也挺高的
但是呢,举个例子吧。
a = " 一位戴着帽子的大妈在路上走"
这是要分词的字符串,分词的得到是也是一个字符串,只不过词和词之间用逗号给隔开了,是这样的效果:
b = " 一位 戴着 帽子 的 大妈 在 路上 走"
可是根据程序需要呢,我想要把b转换成set()格式,前两种方法都可以毫无压力的转换,但是到第三种,我就不行了,Python不是太熟,平时就水的一比,但是今天在我不懈的坚持下,我终于瞎鼓捣鼓捣出来了。记录一下,以后碰到还可能会用到,直接上代码
reference = '一位 大妈 在 路上 走'
a = reference.split( )
b = set(a)
print(b)
‘’‘
{'走', '路上', '在', '大妈', '一位'}
’‘’
这就是结果,看吧,很简单,
但奈何自己编程太low了,然后在这里贴一个链接,上面的字符串处理函数,我觉得还是挺全的,基本上都是你平时用得到的:
https://www.jb51.net/article/173122.htm
好了,今天就到这里了