使用jieba分词,对新浪微博的数据进行处理,想统计用户的每条微博使用 标签即## 和 使用短连接 URL的频率
可是正常分词之后,类似 #王思聪##权力的游戏# 这样的标签,被分词成 # 王思聪 ## 权利的游戏 #
想保护原有的样子应该怎么办?
jieba分词中,有些词不想分,比如 #标签# 比如http://...(URL)应该怎么解决?
最新推荐文章于 2024-06-06 14:11:59 发布
使用jieba分词,对新浪微博的数据进行处理,想统计用户的每条微博使用 标签即## 和 使用短连接 URL的频率
可是正常分词之后,类似 #王思聪##权力的游戏# 这样的标签,被分词成 # 王思聪 ## 权利的游戏 #
想保护原有的样子应该怎么办?