R语言-文本分析

最新推荐文章于 2022-11-27 17:21:40 发布

pdc31czy

最新推荐文章于 2022-11-27 17:21:40 发布

阅读量267

点赞数

分类专栏： R 文章标签： r语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/pdc31czy/article/details/126895557

版权

R 专栏收录该内容

29 篇文章 3 订阅

订阅专栏

#######R语言与非结构化数据分析#######

###4.1文本分析###

##4.1.1 简单文本-词语

##1.描述分析

table() ##计算频数

boxplot()

##2.回归建模

##处理多水平分类变量

##引入一种变量-哑变量（虚拟变量），即0-1变量（参考本书3.3.1）

relevel()#实现基准组的设定

##哑变量前面的系数解读

##在控制其他变量的情况下，该变量相对于基准组的变化

lm()

summary()

##4.1.2 难度升级-处理长难句

##1.定长度词语提取

str_sub(text,start,end) ##设定所需文本的起始和结束位置来提取text中的相关内容

##2.单个关键词提取

grepl(keywords,text) #包含关键词则返回TRUE，否则返回FALSE

##3.多关键词匹配

ifelse()#实现打标签

#看page230例子

#正则表达式

#普通字符（如英文字母）和特殊字符（如”\""^""$"等）的字符串匹配模式

#例：

#“+”可用于匹配前面的字表达式一次或多次

#“橙子+”能匹配到“橙子”和“橙子大”，但不能匹配“大”

##4.1.3小说文本

readLines()#读入小说数据

grep()#找到包括多个空格的句子的位置，"\s+"为匹配一个或多个空格的正则表达式

cbind()#得到每一段的起始句子的位置

paste()#将属于同一段的句子合并

colSums()#计算列的和

crossprod()#实现矩阵乘法

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
R语言-文本分析

文本分析
复制链接

扫一扫

专栏目录

pdc31czy CSDN认证博客专家 CSDN认证企业博客

码龄5年

52: 原创

109万+: 周排名

4万+: 总排名

3万+: 访问

: 等级

673: 积分

83: 粉丝

96: 获赞

6: 评论

264: 收藏

私信

关注

热门文章

分类专栏

Python 11篇
Linux 3篇
TensorFlow 8篇
个人笔记 15篇
MATLAB 6篇
R 29篇

最新评论

Linux配置Tensorflow2 GPU环境
ha_lydms: 非常不错的技术领域文章分享，解决了我在实践中的大问题！博主很有耐心，更有对知识的热忱和热爱，写了这么实用有效的分享，值得收藏点赞。
Linux配置Tensorflow2 GPU环境
CSDN-Ada助手: 推荐 Python入门技能树：https://edu.csdn.net/skill/python?utm_source=AI_act_python
LINUX Drive CUDA cuDNN Anaconda TensorFlow2
CSDN-Ada助手: 推荐 CS入门技能树：https://edu.csdn.net/skill/gml?utm_source=AI_act_gml
R语言-图像分析
今天吃苹果了吗: 您好老师，想请教一下r语言可以读取bmp图像文件的文件头和位图数据吗
R语言-模型训练与调参
lhzdmxxb: >Profile = rfe(x, y, sizes = subsets, rfeControl = ctrl) >Error in rfe.default(x, y, sizes = subsets, rfeControl = ctrl) : there should be the same number of samples in x and y 请问这种错误怎么解决啊

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。