《人民的名义》评论分析

近日,反腐大剧《人民的名义》讲述了反腐天团与位高权重的贪腐分子之间斗智斗勇的故事。一经播出,响应非常强烈,在此,对与《人民的名义》网友的评论做一分析。(《人民的名义》豆瓣评论链接)

此次分析的主要工具为R,有两个主要的包要用到,一个是Rwordseg,这个主要是做中文分词的,另一个是tm包,是一个文本处理的框架,但是tm包有一个缺点,就是对中文支持不太好,会经常出现乱码的现象。然而现在有一个非常好的包chinese.misc,这个包对中文分词支持非常好,不用担心有乱码问题,而且处理非常简单,只需几行代码就可以解决问题,下面使用这两种方法进行简单分析。

截止直到现在,共有四百多条评论。

library(RCurl) ##craw the data from web
library(XML)##craw the data from web and parse the data
library(Rwordseg)##word segment
library(tm)
library(wordcloud2)##wordcloud plot

step <- seq(0,420,20)
contents <- vector()
for (i in step){
  url <- paste("https://movie.douban.com/subject/26727273/discussion/?start=",step ,"&sort_by=time",sep="") ##integrate the url
  html_form <- getURL(url=url)
  parsed_form <- htmlParse(html_form)
  tables <- readHTMLTable(parsed_form)##read HTML table
  contents <- c(contents,as.character(tables[[2]][,1]))##integrate the content from the website
}

write.table(contents,"contents.txt",row.names = F)
segmentCN("contents.txt",returnType = "tm")
mydoc <- readLines("content.txt")##transform the contents to content,the type of content should be ANSI

data_stw <- read.table("stopwords.txt",colClasses = "character")
stopwords_CN <- c(NULL)
for(i in 1:dim(data_stw)[1]){
       stopwords_CN <- c(stopwords_CN, data_stw[i,1])
}
write.table(stopwords_CN,"stopwords_CN.txt",row.names = F)
installDict("stopwords_CN.txt","stop")
installDict("mydict.txt","mydict")

mydoc.vec <- VectorSource(mydoc)
mydoc.corpus <- Corpus(mydoc.vec)
mydoc.corpus <- tm_map(mydoc.corpus,removeWords,stopwords_CN)##remove stopwords
mydoc.corpus <- tm_map(mydoc.corpus,stripWhitespace)##remove white space
control=list(removePunctuation=T,minDocFreq=5,wordLengths= c(1, Inf),weighting = weightTfIdf)
mydoc.tdm <- TermDocumentMatrix(mydoc.corpus,control = control)
mydoc.matrix <- as.matrix(mydoc.tdm)
mydoc.sum <- rowSums(mydoc.matrix)
mydoc.df <- data.frame(term=names(mydoc.sum), freq = as.numeric(mydoc.sum))##generate the data frame

在生成corpus时文档没有乱码,然而再生成词汇文档-矩阵时出现l乱码的问题,然而中间没有什么错误。可以参考博文文本挖掘——词云图的操作

如果用chinese.misc包做文本分析,就非常简单了:

library(chinese.misc)
dtm <- corp_or_dtm("contents.txt",type="d",stop_word = "jibar",control = "auto2")
sort_tf(dtm,top=20)
df <- sort_tf(dtm,todf=T)
wordcloud2(df,backgroundColor = "black", shape = "circle")

单单几行代码,就可以生成词云图,而不用自己去去除停止词,空格,数字还有符号等。

这里写图片描述

这里写图片描述

这里写图片描述

使用wordcloud2作图要比wordcloud作图美观的多,而且在你点击词汇的时候它可以给出该词的词频。由于评论较少,生成的词云比较少,而且还有一个问题,在使用chinese.misc包时去除的停止词好像比较多,两千多个不同的次最后只剩下99个词汇,不过,通过参数设置,还可以调整词汇水平。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
股权代持法律效力分析 股权代持,或称委托持股,是指实际出资人与名义出资人达成以下约定:名义出资人作为名义股东,在股东名册等公司工商登记信息上出现,而实际上由实际出资人出资并享有投资权益。在现代社会,人们对商业交易的保密要求以及灵活安排的需求不断上升。在此背景下,凭借其本身所特有的隐秘性和灵活性,股权代持已被广泛应用在商业交易行为中,例如,为规避公司股东人数上限而进行的职工持股会代持安排,为开展中国境内有限责任公司员工虚拟期权计划而由大股东代持员工股权的安排,在投融资交易中因商业考虑而进行的股权代持安排,等等。与此同时,由股权代持安排引起的纠纷和争议也越来越频繁。 下面通过一起投融资交易中股权代持安排引发的诉讼案件,对股权代持的法律效力问题加以分析梳理,并进一步探讨有效降低或防范这一领域重大法律风险的途径和手段。   一、案情还原 在本案中,原告和被告均为自然人,第三人为一家中资有限责任公司。被告作为第三人的早期投资人,持有第三人的部分股权。原告获悉第三人正准备开展新一轮融资,便与被告协商,希望能从被告处以较低价格受让其持有的第三人部分股权。在此过程中,原告成为这部分受让股权的实际出资人,但名义上它仍由被告持有。被告与原告协商后签署的《代持协议》约定:被告将其持有第三人的部分股权以低于同期融资价格的价格转让给原告;在第三人的股权在公开市场流通前,由被告代原告持有该部分股权。 之后,由于经营不善,第三人股权的估值大幅度降低。此时原告实际持有的第三人股权的市场价值已低于之前从被告处受让股权时的价值,由此导致原告投资失利,该笔投资处于亏损状态。于是,原告希望不再履行《代持协议》,并要求被告将之前从原告处收取的股权转让款全部返还。这一要求遭到被告的拒绝,原告遂将被告起诉至法院,请求法院确认《代持协议》无效,并判令被告将其从原告处取得的股权转让款全额返还。 这份《代持协议》的法律效力究竟如何?是有效合同、可撤销合同,还是效力待定合同?抑或根本就是无效合同?这是本案中双方争议的主要焦点,也是这一类股权代持协议法律关系中存在的普遍性问题。   二、股权代持法律效力分析 1. 概述 股权代持安排的协议通常包含两种民事法律行为:一是实际出资人和名义出资人关于委托持股的民事法律行为;二是实际出资人与名义出资人关于股权转让的民事法律行为(即名义出资人将其持有的股权转让给实际出资人)。因此,要判断股权代持安排的协议是否有效,需要分别分析委托持股和股权转让这两个民事法律行为的法律效力。 《合同法》第52条列出了合同无效的五种

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值