长城评论词云分析

最新推荐文章于 2024-03-28 18:55:38 发布

littlely_ll

最新推荐文章于 2024-03-28 18:55:38 发布

阅读量599

点赞数

分类专栏：网络数据抓取文章标签：数据抓取长城-电影评论 R语言

本文链接：https://blog.csdn.net/littlely_ll/article/details/53863120

版权

网络数据抓取专栏收录该内容

5 篇文章 1 订阅

订阅专栏

最近《长城》这部电影很火，争议也很大，我根据豆瓣底部的点评来分析这部电影在观众眼中是怎样的。
此为长城短评链接。
下面给出代码：

library(XML)
library(RCurl)
library(stringr)
library(Rwordseg)
library(tm)
library(wordcloud2)
library(wordcloud)
url <- "https://movie.douban.com/subject/6982558/comments?sort=new_score&status=P"
html_form <- readLines(url,encoding="UTF-8")
a <- c(26,52,80,114,136,161,187)
for(i in a){
  urls <- paste("https://movie.douban.com/subject/6982558/comments?start=",i,
                "&limit=20&sort=new_score&status=P")
  html_forms <- readLines(urls,encoding="UTF-8")               ##如果要使用htmlParse，可以用parsed <- htmlParse(getURL(url = url)),
##xpath <- "//p[@class='']"(这里需要注意，@class=后只能用''，不能用双引号，否则出错)
##content <- xpathSApply(parsed,xpath,xmlValue)
  html_form <- c(html_form, html_forms)
}
content <- html_form[str_detect(html_form,'<p class="">')]
contents <- str_sub(content, start=21)
segment <- segmentCN(contents)
segment_unlist <- unlist(segment)
corpus <- Corpus(VectorSource(segment_unlist))
dm_mat <- DocumentTermMatrix(corpus)
dmmat <- as.matrix(dm_mat)
dmmat_colsum <- colSums(dmmat)
df <- data.frame(name=names(dmmat_colsum),
                 freq=as.numeric(dmmat_colsum),stringsAsFactors = F)
wordcloud2(df,shape="R")
df[which.max(df$freq),]
wordcloud(df$name,df$freq,min.freq = 2, random.color = T,
          colors=rainbow(24),scale = c(4,1))