Python网络爬虫与文本数据分析
本章内容
- 导入停用词
- 读数据,分词
- 剔除停用词
导入停用词表
library(dplyr)
## [1] "?" "、" "。" "“" "”" "《" "》" "!" "!" ","
读取数据分词
library(jiebaR)
## [1] "第" "1" "章" "科学" "边界" "1" "恋上你" "看书"
剔除停用词
在Python学习使用的过程中养成了for解决问题习惯,但是R里的for真的好慢~
new_words
for (word in words) {
if (!word %in% stopwords){
new_words }
}
head(new_words)
## [1] "1" "章" "科学" "边界" "1" "恋上你"
词频统计
jiebaR有一个freq函数,可以words中每个词的词频,返回的数据类型是data.frame
wordfreqs wordfreqs
词频按照降序显示
#提前小超纲,用到dplyr中的排序
保存到excel
使用writexl包的write
"output/三体词频统计.xlsx")
R语言相关
R语言 | 读写txt、csv、excel文件 R语言 | 数据操作tidyr包R语言 | 数据操作dplyr包 R语言 | jiebaR中文分词包
Python相关
[更新] Python网络爬虫与文本数据分析 Pingouin: 基于pandas和numpy的统计包读完本文你就了解什么是文本分析文本分析在经管领域中的应用概述 综述:文本分析在市场营销研究中的应用plotnine: Python版的ggplot2作图库小案例: Pandas的apply方法 stylecloud:简洁易用的词云库 用Python绘制近20年地方财政收入变迁史视频 Wow~70G上市公司定期报告数据集漂亮~pandas可以无缝衔接Bokeh YelpDaset: 酒店管理类数据集10+G 后台回复关键词【R词频】获取本文代码和数据
“
分享
”和“
在看
”是更好的支持!