网络数据抓取
文章平均质量分 79
littlely_ll
Strive for the best, and prepare for the worst.
展开
-
网络数据抓取及其R实现(以链家楼盘为例)
\quad本次数据抓取的链家新房楼盘,由于对网络抓取数据还不熟悉,所以现在只抓取了北京地区的楼盘。我在学习过程中主要参考资料为《基于R语言的自动数据收集》,这本书确实不错,在前八章讲解的基础知识,以本书的配套网站资源为讲解基础,但是在按照书中抓取数据时有些地方和书本讲的不太一样,我认为主要是网络结构的变化引起的,大部分还是可行的。现在我看到了第九章,再往后都是一些网络数据抓取项目实例,所以后面的东西原创 2016-12-19 21:39:01 · 4005 阅读 · 1 评论 -
stringr包介绍
1. case用法: str_to_upper(string, locale = "") str_to_lower(string, locale = "") str_to_title(string, locale = "") string为要处理的字符串;locale为要翻译的...。 > dog > str_to_upper(dog) [1] "THE QUICK BROWN DOG" >原创 2017-02-04 21:27:15 · 1351 阅读 · 0 评论 -
文本挖掘——词云图的操作
弄了两天,今天看了一篇博文才有点搞的明白,第一天看了Rwordseg包,这个包可把我整惨了,安装它都使出吃奶的劲了,我怎么觉得还没安装到位。如果想安装的话请参考《Rwordseg使用说明》,李舰写的,也是个大牛。比较详细介绍了Rwordseg的使用。第二天看了第二篇文章《玩玩文本挖掘-wordcloud、主题模型与文本分类》,这个家伙也不好看,讲的啰里啰嗦的。用个简单的例子就行了呗,非得用个复杂的原创 2017-02-04 21:26:52 · 9310 阅读 · 0 评论 -
长城评论词云分析
最近《长城》这部电影很火,争议也很大,我根据豆瓣底部的点评来分析这部电影在观众眼中是怎样的。 此为长城短评链接。 下面给出代码:library(XML) library(RCurl) library(stringr) library(Rwordseg) library(tm) library(wordcloud2) library(wordcloud) url <- "https://movie原创 2016-12-24 22:20:43 · 599 阅读 · 0 评论 -
《人民的名义》评论分析
近日,反腐大剧《人民的名义》讲述了反腐天团与位高权重的贪腐分子之间斗智斗勇的故事。一经播出,响应非常强烈,在此,对与《人民的名义》网友的评论做一分析。(《人民的名义》豆瓣评论链接)此次分析的主要工具为R,有两个主要的包要用到,一个是Rwordseg,这个主要是做中文分词的,另一个是tm包,是一个文本处理的框架,但是tm包有一个缺点,就是对中文支持不太好,会经常出现乱码的现象。然而现在有一个非常好的包原创 2017-04-04 13:45:30 · 5538 阅读 · 0 评论