pkuseg与jieba分词效果比较，BERTBasicTokenizer

最新推荐文章于 2022-05-24 16:45:07 发布

sinat_24395003

最新推荐文章于 2022-05-24 16:45:07 发布

阅读量863

点赞数

文章标签：分词

本文链接：https://blog.csdn.net/sinat_24395003/article/details/108530194

版权

从效果上看，在网络用语上pkuseg web模式表现性能优于结巴。具体体现在
1.时间粒度词分割 2010/10
2.网址分割 https://d.weibo.com/102803_ctg1_3288_-_ctg1_3288?from=faxian_hot&mod=fenlei#
3.去除无效字符上，pkuseg会进行此类操作，jieba不会
4.感觉在一些常规细节上 pkuseg不如jieba.例如好看、[酷]等
5....


import pkuseg
seg = pkuseg.pkuseg()  # 程序会自动下载所对应的细领域模型
text = seg.cut("""
#徐峥新片预告#姜紫丫这丫头，板书写得和人一样好看[酷]#2020/10电影愿#
#电影我和我的家乡# 之《最后一课》国庆见！#我和我的家乡预告#  https://d.weibo.com/102803_ctg1_3288_-_ctg1_3288?from=faxian_hot&mod=fenlei#
@徐峥 @姜紫丫""")              # 进行分词
print(text)

seg = pkuseg.pkuseg(model_name='web')  # 程序会自动下载所对应的细领域模型
text = seg.cut("""
# 徐峥新片预告#姜紫丫这丫头，板书写得和人一样好看[酷]#2020/10电影愿#
#电影我和我的家乡# 之《最后一课》国庆见！#我和我的家乡预告# https://d.weibo.com/102803_ctg1_3288_-_ctg1_3288?from=faxian_hot&mod=fenlei#
@徐峥 @姜紫丫
""")              # 进行分词
print(text)


import jieba
text = jieba.cut(""" 
#徐峥新片预告#姜紫丫这丫头，板书写得和人一样好看[酷]#2020/10电影愿#
#电影我和我的家乡# 之《最后一课》国庆见！#我和我的家乡预告# https://d.weibo.com/102803_ctg1_3288_-_ctg1_3288?from=faxian_hot&mod=fenlei#
@徐峥 @姜紫丫
""")              # 进行分词
print(list(text))

结果

['#', '徐峥', '新片', '预告', '#', '姜', '紫丫', '这', '丫头', '，', '板书', '写', '得', '和', '人', '一样', '好看', '[', '酷]', '#', '2020/10', '电影', '愿', '#', '#', '电影', '我', '和', '我', '的', '家乡', '#', '之', '《', '最后', '一', '课', '》', '国庆', '见', '！', '#', '我', '和', '我', '的', '家乡', '预告', '#', 'https', '://d.weibo.com/102803_ctg1_3288', '_-_ctg1_3288', '?', 'from', '=', 'faxian_hot', '&', 'mod=fenlei', '#', '@', '徐峥', '@', '姜紫丫']
['#', '徐峥', '新片', '预告', '#', '姜紫丫', '这', '丫头', '，', '板书', '写', '得', '和', '人', '一样', '好', '看[', '酷]', '#', '2020/10', '电影', '愿', '#', '#', '电影', '我', '和', '我', '的', '家乡', '#', '之', '《', '最后', '一', '课', '》', '国庆', '见', '！', '#', '我', '和', '我', '的', '家乡', '预告', '#', 'https://d.weibo.com/102803_ctg1_3288_-_ctg1_3288', '?', 'from=faxian_hot', '&', 'mod=fenlei', '#', '@', '徐峥', '@', '姜紫丫']
Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\FANGPE~1\AppData\Local\Temp\jieba.cache
Loading model cost 0.741 seconds.
[' ', '\n', '#', '徐峥', '新片预告', '#', '姜紫丫', '这', '丫头', '，', '板', '书写', '得', '和', '人', '一样', '好看', '[', '酷', ']', '#', '2020', '/', '10', '电影', '愿', '#', '\n', '#', '电影', '我', '和', '我', '的', '家乡', '#', ' ', '之', '《', '最后', '一课', '》', '国庆', '见', '！', '#', '我', '和', '我', '的', '家乡', '预告', '#', ' ', 'https', ':', '/', '/', 'd', '.', 'weibo', '.', 'com', '/', '102803', '_', 'ctg1', '_', '3288', '_-_', 'ctg1', '_', '3288', '?', 'from', '=', 'faxian', '_', 'hot', '&', 'mod', '=', 'fenlei', '#', '\n', '@', '徐峥', ' ', '@', '姜紫丫', '\n']

import gluonnlp as nlp
sentence = '1999年，我回家了,买了个apple手机'
tokenizer = nlp.data.BERTBasicTokenizer(lower=True)
print(tokenizer(sentence))

结果：['1999', '年', '，', '我', '回', '家', '了', ',', '买', '了', '个', 'apple', '手', '机']

sinat_24395003

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
pkuseg与jieba分词效果比较，BERTBasicTokenizer

从效果上看，在网络用语上pkuseg web模式表现性能优于结巴。具体体现在1.时间粒度词分割 2010/102.网址分割 https://d.weibo.com/102803_ctg1_3288_-_ctg1_3288?from=faxian_hot&mod=fenlei#3.去除无效字符上，pkuseg会进行此类操作，jieba不会4. ...import pkusegseg = pkuseg.pkuseg() # 程序会自动下载所对应的细领域模型text = seg.cut(.
复制链接

扫一扫