用R语言做词频统计_R语言 | 词频统计

Python网络爬虫与文本数据分析

本章内容

  1. 导入停用词
  2. 读数据,分词
  3. 剔除停用词

导入停用词表

library(dplyr)
##  [1] "?"    "、"   "。"   "“"    "”"    "《"   "》"   "!"    "!"   ","  

读取数据分词

library(jiebaR)
##  [1] "第"     "1"      "章"     "科学"   "边界"   "1"      "恋上你" "看书"  

剔除停用词

在Python学习使用的过程中养成了for解决问题习惯,但是R里的for真的好慢~

new_words 
for (word in words) {
    if (!word %in% stopwords){
        new_words     }
}

head(new_words)
## [1] "1"      "章"     "科学"   "边界"   "1"      "恋上你"

词频统计

jiebaR有一个freq函数,可以words中每个词的词频,返回的数据类型是data.frame

wordfreqs wordfreqs

3f36d4a5ed0d64b3278aef6afed8e311.png

词频按照降序显示

#提前小超纲,用到dplyr中的排序

6350936cda0fbb4e8eb53559c4ee4118.png

保存到excel

使用writexl包的write

"output/三体词频统计.xlsx")

53d8b30e02b38f40816ca141bbab3bbc.png

R语言相关

R语言 | 读写txt、csv、excel文件 R语言 | 数据操作tidyr包R语言 | 数据操作dplyr包  R语言 | jiebaR中文分词包

Python相关

[更新] Python网络爬虫与文本数据分析 Pingouin: 基于pandas和numpy的统计包读完本文你就了解什么是文本分析文本分析在经管领域中的应用概述  综述:文本分析在市场营销研究中的应用plotnine: Python版的ggplot2作图库小案例: Pandas的apply方法  stylecloud:简洁易用的词云库 用Python绘制近20年地方财政收入变迁史视频  Wow~70G上市公司定期报告数据集漂亮~pandas可以无缝衔接Bokeh  YelpDaset: 酒店管理类数据集10+G  后台回复关键词【R词频】获取本文代码和数据
分享 ”和“ 在看 ”是更好的支持!
  • 0
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值