pkuseg与jieba分词效果比较,BERTBasicTokenizer

从效果上看,在网络用语上pkuseg web模式表现性能优于结巴。具体体现在
1.时间粒度词分割 2010/10
2.网址分割 https://d.weibo.com/102803_ctg1_3288_-_ctg1_3288?from=faxian_hot&mod=fenlei#
3.去除无效字符上,pkuseg会进行此类操作,jieba不会
4.感觉在一些常规细节上 pkuseg不如jieba.例如好看、[酷]等
5....


import pkuseg
seg = pkuseg.pkuseg()  # 程序会自动下载所对应的细领域模型
text = seg.cut("""
#徐峥新片预告#姜紫丫这丫头,板书写得和人一样好看[酷]#2020/10电影愿#
#电影我和我的家乡# 之《最后一课》国庆见!#我和我的家乡预告#  https://d.weibo.com/102803_ctg1_3288_-_ctg1_3288?from=faxian_hot&mod=fenlei#
@徐峥 @姜紫丫""")              # 进行分词
print(text)

seg = pkuseg.pkuseg(model_name='web')  # 程序会自动下载所对应的细领域模型
text = seg.cut("""
# 徐峥新片预告#姜紫丫这丫头,板书写得和人一样好看[酷]#2020/10电影愿#
#电影我和我的家乡# 之《最后一课》国庆见!#我和我的家乡预告# https://d.weibo.com/102803_ctg1_3288_-_ctg1_3288?from=faxian_hot&mod=fenlei#
@徐峥 @姜紫丫
""")              # 进行分词
print(text)


import jieba
text = jieba.cut(""" 
#徐峥新片预告#姜紫丫这丫头,板书写得和人一样好看[酷]#2020/10电影愿#
#电影我和我的家乡# 之《最后一课》国庆见!#我和我的家乡预告# https://d.weibo.com/102803_ctg1_3288_-_ctg1_3288?from=faxian_hot&mod=fenlei#
@徐峥 @姜紫丫
""")              # 进行分词
print(list(text))

 

结果

['#', '徐峥', '新片', '预告', '#', '姜', '紫丫', '这', '丫头', ',', '板书', '写', '得', '和', '人', '一样', '好看', '[', '酷]', '#', '2020/10', '电影', '愿', '#', '#', '电影', '我', '和', '我', '的', '家乡', '#', '之', '《', '最后', '一', '课', '》', '国庆', '见', '!', '#', '我', '和', '我', '的', '家乡', '预告', '#', 'https', '://d.weibo.com/102803_ctg1_3288', '_-_ctg1_3288', '?', 'from', '=', 'faxian_hot', '&', 'mod=fenlei', '#', '@', '徐峥', '@', '姜紫丫']
['#', '徐峥', '新片', '预告', '#', '姜紫丫', '这', '丫头', ',', '板书', '写', '得', '和', '人', '一样', '好', '看[', '酷]', '#', '2020/10', '电影', '愿', '#', '#', '电影', '我', '和', '我', '的', '家乡', '#', '之', '《', '最后', '一', '课', '》', '国庆', '见', '!', '#', '我', '和', '我', '的', '家乡', '预告', '#', 'https://d.weibo.com/102803_ctg1_3288_-_ctg1_3288', '?', 'from=faxian_hot', '&', 'mod=fenlei', '#', '@', '徐峥', '@', '姜紫丫']
Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\FANGPE~1\AppData\Local\Temp\jieba.cache
Loading model cost 0.741 seconds.
[' ', '\n', '#', '徐峥', '新片预告', '#', '姜紫丫', '这', '丫头', ',', '板', '书写', '得', '和', '人', '一样', '好看', '[', '酷', ']', '#', '2020', '/', '10', '电影', '愿', '#', '\n', '#', '电影', '我', '和', '我', '的', '家乡', '#', ' ', '之', '《', '最后', '一课', '》', '国庆', '见', '!', '#', '我', '和', '我', '的', '家乡', '预告', '#', ' ', 'https', ':', '/', '/', 'd', '.', 'weibo', '.', 'com', '/', '102803', '_', 'ctg1', '_', '3288', '_-_', 'ctg1', '_', '3288', '?', 'from', '=', 'faxian', '_', 'hot', '&', 'mod', '=', 'fenlei', '#', '\n', '@', '徐峥', ' ', '@', '姜紫丫', '\n']

 

import gluonnlp as nlp
sentence = '1999年,我回家了,买了个apple手机'
tokenizer = nlp.data.BERTBasicTokenizer(lower=True)
print(tokenizer(sentence))

结果:['1999', '年', ',', '我', '回', '家', '了', ',', '买', '了', '个', 'apple', '手', '机']

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值