从效果上看,在网络用语上pkuseg web模式表现性能优于结巴。具体体现在
1.时间粒度词分割 2010/10
2.网址分割 https://d.weibo.com/102803_ctg1_3288_-_ctg1_3288?from=faxian_hot&mod=fenlei#
3.去除无效字符上,pkuseg会进行此类操作,jieba不会
4.感觉在一些常规细节上 pkuseg不如jieba.例如好看、[酷]等
5....
import pkuseg
seg = pkuseg.pkuseg() # 程序会自动下载所对应的细领域模型
text = seg.cut("""
#徐峥新片预告#姜紫丫这丫头,板书写得和人一样好看[酷]#2020/10电影愿#
#电影我和我的家乡# 之《最后一课》国庆见!#我和我的家乡预告# https://d.weibo.com/102803_ctg1_3288_-_ctg1_3288?from=faxian_hot&mod=fenlei#
@徐峥 @姜紫丫""") # 进行分词
print(text)
seg = pkuseg.pkuseg(model_name='web') # 程序会自动下载所对应的细领域模型
text = seg.cut("""
# 徐峥新片预告#姜紫丫这丫头,板书写得和人一样好看[酷]#2020/10电影愿#
#电影我和我的家乡# 之《最后一课》国庆见!#我和我的家乡预告# https://d.weibo.com/102803_ctg1_3288_-_ctg1_3288?from=faxian_hot&mod=fenlei#
@徐峥 @姜紫丫
""") # 进行分词
print(text)
import jieba
text = jieba.cut("""
#徐峥新片预告#姜紫丫这丫头,板书写得和人一样好看[酷]#2020/10电影愿#
#电影我和我的家乡# 之《最后一课》国庆见!#我和我的家乡预告# https://d.weibo.com/102803_ctg1_3288_-_ctg1_3288?from=faxian_hot&mod=fenlei#
@徐峥 @姜紫丫
""") # 进行分词
print(list(text))
结果
['#', '徐峥', '新片', '预告', '#', '姜', '紫丫', '这', '丫头', ',', '板书', '写', '得', '和', '人', '一样', '好看', '[', '酷]', '#', '2020/10', '电影', '愿', '#', '#', '电影', '我', '和', '我', '的', '家乡', '#', '之', '《', '最后', '一', '课', '》', '国庆', '见', '!', '#', '我', '和', '我', '的', '家乡', '预告', '#', 'https', '://d.weibo.com/102803_ctg1_3288', '_-_ctg1_3288', '?', 'from', '=', 'faxian_hot', '&', 'mod=fenlei', '#', '@', '徐峥', '@', '姜紫丫']
['#', '徐峥', '新片', '预告', '#', '姜紫丫', '这', '丫头', ',', '板书', '写', '得', '和', '人', '一样', '好', '看[', '酷]', '#', '2020/10', '电影', '愿', '#', '#', '电影', '我', '和', '我', '的', '家乡', '#', '之', '《', '最后', '一', '课', '》', '国庆', '见', '!', '#', '我', '和', '我', '的', '家乡', '预告', '#', 'https://d.weibo.com/102803_ctg1_3288_-_ctg1_3288', '?', 'from=faxian_hot', '&', 'mod=fenlei', '#', '@', '徐峥', '@', '姜紫丫']
Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\FANGPE~1\AppData\Local\Temp\jieba.cache
Loading model cost 0.741 seconds.
[' ', '\n', '#', '徐峥', '新片预告', '#', '姜紫丫', '这', '丫头', ',', '板', '书写', '得', '和', '人', '一样', '好看', '[', '酷', ']', '#', '2020', '/', '10', '电影', '愿', '#', '\n', '#', '电影', '我', '和', '我', '的', '家乡', '#', ' ', '之', '《', '最后', '一课', '》', '国庆', '见', '!', '#', '我', '和', '我', '的', '家乡', '预告', '#', ' ', 'https', ':', '/', '/', 'd', '.', 'weibo', '.', 'com', '/', '102803', '_', 'ctg1', '_', '3288', '_-_', 'ctg1', '_', '3288', '?', 'from', '=', 'faxian', '_', 'hot', '&', 'mod', '=', 'fenlei', '#', '\n', '@', '徐峥', ' ', '@', '姜紫丫', '\n']
import gluonnlp as nlp sentence = '1999年,我回家了,买了个apple手机' tokenizer = nlp.data.BERTBasicTokenizer(lower=True) print(tokenizer(sentence))
结果:['1999', '年', ',', '我', '回', '家', '了', ',', '买', '了', '个', 'apple', '手', '机']