用R语言做词频统计_R语言 | 词频统计

最新推荐文章于 2023-07-19 17:10:51 发布

weixin_39794340

最新推荐文章于 2023-07-19 17:10:51 发布

阅读量4.6k

点赞数

文章标签：用R语言做词频统计

Python网络爬虫与文本数据分析

本章内容

导入停用词
读数据，分词
剔除停用词

导入停用词表

library(dplyr)

##  [1] "?"    "、"   "。"   "“"    "”"    "《"   "》"   "!"    "！"   "，"

读取数据分词

library(jiebaR)

##  [1] "第"     "1"      "章"     "科学"   "边界"   "1"      "恋上你" "看书"

剔除停用词

在Python学习使用的过程中养成了for解决问题习惯，但是R里的for真的好慢~

new_words 
for (word in words) {
    if (!word %in% stopwords){
        new_words     }
}

head(new_words)

## [1] "1"      "章"     "科学"   "边界"   "1"      "恋上你"

词频统计

jiebaR有一个freq函数，可以words中每个词的词频，返回的数据类型是data.frame

wordfreqs wordfreqs

词频按照降序显示

#提前小超纲，用到dplyr中的排序

保存到excel

使用writexl包的write

"output/三体词频统计.xlsx")

R语言相关

R语言 | 读写txt、csv、excel文件 R语言 | 数据操作tidyr包R语言 | 数据操作dplyr包  R语言 | jiebaR中文分词包

`Python相关`

[更新] Python网络爬虫与文本数据分析 Pingouin: 基于pandas和numpy的统计包读完本文你就了解什么是文本分析文本分析在经管领域中的应用概述  综述:文本分析在市场营销研究中的应用plotnine: Python版的ggplot2作图库小案例: Pandas的apply方法  stylecloud:简洁易用的词云库 用Python绘制近20年地方财政收入变迁史视频  Wow~70G上市公司定期报告数据集漂亮~pandas可以无缝衔接Bokeh  YelpDaset: 酒店管理类数据集10+G  后台回复关键词【R词频】获取本文代码和数据

“ 分享 ”和“ 在看 ”是更好的支持！

weixin_39794340

关注

0
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
用R语言做词频统计_R语言 | 词频统计

Python网络爬虫与文本数据分析本章内容导入停用词读数据，分词剔除停用词导入停用词表library(dplyr)##[1]"?""、""。""“""”""《""》""!""！""，"读取数据分词library(jiebaR)##[1]"第""1""章""科学""边界"...
复制链接

扫一扫