jiebaR中文分词快速入门

最新推荐文章于 2022-04-28 18:55:07 发布

bgods

最新推荐文章于 2022-04-28 18:55:07 发布

阅读量1.1w

点赞数 6

分类专栏： R语言文章标签： jiebaR中文分词 R

本文链接：https://blog.csdn.net/songzhilian22/article/details/49250489

版权

这篇博客介绍了jiebaR在R中的使用，包括四种分词模式、词性标注、关键词提取、simhash计算和快速模式。示例代码详细展示了如何进行分词操作，并提到了jiebaR的优化和自定义设置。

摘要由CSDN通过智能技术生成

参考于jiebaR中文分词帮助文档，做了个笔记，方便以后学习。这里有官方英文文档，以及jiebaR官网。

#1. 分词

jiebaR提供了四种分词模式，可以通过函数worker()来初始化分词引擎，使用函数segment()进行分词。具体使用?worker查看帮助

简单用法举例说明


text <- '你要明白，这仅仅是一个测试文本'
mixseg <- worker() #使用默认参数，混合模型（MixSegment）

segment(text, mixseg)
#等价于mixseg[text]
#也等价于mixseg <= text

这里写图片描述

直接输入mixseg命令，可以查看此worker的配置

mixseg

这里写图片描述

可以通过R语言常用的 $符号重设一些worker的参数设置，如 WorkerName$symbol = T，在输出中保留标点符号。一些

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

bgods

关注关注

6
点赞
踩
22

收藏

觉得还不错? 一键收藏
3
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

R语言——jiebaR基础

冯大洋的博客

05-21

5215

一、jiebaR中的函数介绍(很大一部分参照jiebaR官方文档：qinwenfeng.com/jiebaR/)**No.1**worker(type = "mix", dict = DICTPATH, hmm = HMMPATH, user = USERPATH,idf = IDFPATH, stop_word = STOPPATH, write = T, qmax = 20, top...

R语言 | jiebaR中文分词包

大邓和他的Python

07-20

2099

[更新~] Python网络爬虫与文本数据分析jiebaR中文与英文做文本分析很多时候会多一个分词步骤，因为默认情况下，文本分析软件会默认用空格作为分隔符处理文本，所以很多软件需要先将中...

3 条评论您还未登录，请先登录后发表或查看评论

(转)jiebaR中文分词快速入门

wqh_jingsong的专栏

08-25

1572

分词jiebaR提供了四种分词模式，可以通过函数worker()来初始化分词引擎，使用函数segment()进行分词。

R语言jiebaR中文分词并做LDA主题建模

03-31

使用R语言中的jiebaR包，对中文文本进行分词，求词频，做词云图并进行LDA主题建模。

R语言中利用jiebaR包实现中文分词

辉的博客

04-28

6112

文章目录介绍worker()函数介绍参数介绍new_user_word()函数介绍参数介绍freq()函数介绍实例利用默认库进行分词利用自定义词库进行分割通过文本文件添加用户自定义词库注意事项自定义停用词进行分词并词频统计词性标注注意事项提取关键词介绍能够实现中文分词的R包有Rwordseg包和jiebaR包，从目前来看jiebaR包的功能更加强大，效率也更高。这里将介绍如何使用jiebaR包实现中文分词。 worker()函数介绍 worker()函数可以创建一个jiebaR对象，包括分割器、查找器、

jiebaR中文分词，从入门到喜欢

王亨的博客

05-20

8906

今天来聊聊jiebaR这个包，绝对让你从入门，到你喜欢这个包到爱不释手。

R语言自然语言处理：中文分词

简书博客搬家测试账号

02-28

347

欢迎关注天善智能，我们是专注于商业智能BI，人工智能AI，大数据分析与挖掘领域的垂直社区，学习，问答、求职一站式搞定！对商业智能BI、大数据分析挖掘、机器学习，python，R等数据领域感兴趣的同学加微信：tstoutiao，邀请你进入数据爱好者交流群，数据...

萌新学习Python爬取B站弹幕+R语言分词demo说明

findhappy117的博客

03-04

1217

代码地址如下：http://www.demodashi.com/demo/11578.html 一、写在前面之前在简书首页看到了Python爬虫的介绍，于是就想着爬取B站弹幕并绘制词云，因此有了这样一个简单的尝试，从搭建环境到跑通demo，不懂语法，不知含义，装好环境，查到API，跑通Demo，就是目标！纯零基础萌新！关于环境的安装及调试过程中遇到的问题记录请移步二、Python爬取B站弹幕环境

利用R制作词云图

weixin_40278806的博客

05-30

8485

制作词云图本不是难事，利用R或者tableau可以轻松制作出花式词云图，但是词源的获取就不是那么容易了，今天我们就利用R语言中的jiebaR包来对北大校长林建华在北大120周年校庆的致辞做分词，并制作词云图。致辞内容保存在‘beida120.txt'中，分词以及绘制词云图代码如下：> library(jiebaRD) > library(jiebaR) >...

《R语言与数据挖掘》③-①使用R语言进行中文分词

王斯的博客

12-13

1918

RWordseg包文本分词 library(rJava) library(Rwordseg) 文本分词 text = “今天天气真好呀，好想出去玩” segmentCN(text) # 对"雷克萨斯品牌"进行分词 insertWords(c(“气”)) # 导入词汇 segmentCN(text) # 导入词汇后再次分词 deleteWords(c(“气”)) # 删除词汇 segmentCN(text) # 删除词汇后再次分词载入词典并进行文本分词词典下载链接：http://pinyin.

搜索中的 Query 理解及应用

SeaSky_Steven的博客

05-08

6874

文章作者：Joelchen 腾讯研究员编辑整理：Hoh 内容来源：腾讯技术工程出品平台：DataFunTalk 注：转载请联系原作者。导读：Query 理解 ( QU，Query Understanding )，简单来说就是从词法、句法、语义三个层面对 query 进行结构化解析。这里 query 从广义上来说涉及的任务比较多，最常见的就是我们在搜索系统中输入的查询词，也可以是 FAQ 问答或阅读理解中的问句，又或者可以是人机对话中用户的聊天输入。本文主要介绍在搜索中的 query .

搜索-Query理解(全)

01-06

6985

Query 模块：纠错分词紧密度同义词词权重实体词识别意图识别长尾 query 的多样性对于搜索系统来说是一个很大的挑战，原因有： ❶存在输入错误。例如上图中的错误 query "塞尔维雅" ( 塞尔维亚 )，对于这种错误我们希望系统能够自动的纠错； ❷存在表达冗余。例如输入 "孙子兵法智慧的现代意义"，在这个语境下，"智慧" 是一个无关紧要的词。如果强制去匹...

R语言中文分词jiebaR

路漫漫其修远兮吾将上下而求索

02-17

2万+

简介“结巴”中文分词的R语言版本，支持最大概率法（Maximum Probability）, 隐式马尔科夫模型（Hidden Markov Model）, 索引模型（QuerySegment）, 混合模型（MixSegment）, 共四种分词模式，同时有词性标注，关键词提取，文本Simhash相似度比较等功能。项目使用了Rcpp和CppJieba进行开发。特性支持 Windows , Linux操

jiebaR中文分词，并做词云（R语言）

Bgods

10-16

2万+

使用结巴中文分词（jiebaR）对之前爬取的新浪新闻文本进行分词，统计词频之后，使用包wordcloud画词云。1、读入数据以下数据是在这里爬取的，这里只对社会新闻类进行测试，文件还是比较大的。分词完有一千多万个词，处理完后有将近30万。library(jiebaR) library(wordcloud)#读入数据分隔符是‘\n’，字符编码是‘UTF-8’，what=''表示以字符串类型读入 f

R语言中文分词包jiebaR

fens的博客

07-21

2809

R的极客理想系列文章，涵盖了R的思想，使用，工具，创新等的一系列要点，以我个人的学习和体验去诠释R的强大。 R语言作为统计学一门语言，一直在小众领域闪耀着光芒。直到大数据的爆发，R语言变成了一门炙手可热的数据分析的利器。随着越来越多的工程背景的人的加入，R语言的社区在迅速扩大成长。现在已不仅仅是统计领域，教育，银行，电商，互联网….都在使用...

NLP+词法系列（一）︱中文分词技术小结、几大分词引擎的介绍与比较