阳光的专栏

仰看阳光只见空,不如影里看梧桐

R语言-Kindle特价书爬榜示例 & 输出HTML小技巧

转载自:http://www.cnblogs.com/weibaar/p/4824578.html


自从买了kindle以后,总是想要定期刷有没有便宜的书,amazon经常有些1元/2元的书打特价,但是每次都去刷那些榜单太麻烦了,而且榜单又不能按照价格排名,捞书有点累

所以自己用R语言的rvest包简单写了一个小程序,让它自动按照不同价格区间把特价书给分出来。

主要看的是kindle新品排行榜和最快畅销榜。

销售爬升最快榜: http://www.amazon.cn/gp/movers-and-shakers/digital-text/

新品榜: http://www.amazon.cn/gp/new-releases/digital-text/

 

需要预先安装data.table / dplyr / rvest包。

代码如下

install.packages("rvest")
install.packages("data.table")
install.packages("dplyr")

 

主要分享点是:

1、Rvest的简单应用实例
2、如何把数据框(data.frame or table) 输出为html文件,即添加html脚本的方法

 

自从买了kindle以后,总是想要定期刷有没有便宜的书,amazon经常有些1元/2元的书打特价,但是每次都去刷那些榜单太麻烦了,而且榜单又不能按照价格排名,捞书有点累

所以自己用R语言的rvest包简单写了一个小程序,让它自动按照不同价格区间把特价书给分出来。

主要看的是kindle新品排行榜和最快畅销榜。

销售爬升最快榜: http://www.amazon.cn/gp/movers-and-shakers/digital-text/

新品榜: http://www.amazon.cn/gp/new-releases/digital-text/

 

需要预先安装data.table / dplyr / rvest包。

代码如下

install.packages("rvest")
install.packages("data.table")
install.packages("dplyr")

 

主要分享点是:

1、Rvest的简单应用实例
2、如何把数据框(data.frame or table) 输出为html文件,即添加html脚本的方法

最后在我的文档("~//"表示定位到我的文档那里)会找到三个HTML文件,打开来,大概长下面这个样子,于是就可以很愉悦得选书了。Kindle时不时会把一些好书1元贱卖的~~所以有了kindle经常手贱,有这个小脚本之后我觉得我会更加手贱买书了。。。

 

如果大家有兴趣,还可以去搜一下R语言批处理、自动运行等文章来看,把这个代码设为定期跑一下,然后让结果能够累计保存。那么以后就知道kindle商城在什么时候调价最多了。 amazon还是比较容易爬虫的,它html页面内代码很规范整洁,除了在产品详情页里,产品描述(product description)总是被脚本保护起来,比较难爬。

 

以及最近开始学python了!

大牛分享了一个很好用的python IDE,叫做ANACONDA,里面那个spyder的IDE真的做的很棒~~跟rstudio有的一拼~ 而且ANACONDA集成了python 2.7,都不用单独下python了~~

然后github上有两个教程写的还蛮不错的

1、 python入门

https://github.com/qiwsir/StarterLearningPython

2、python爬虫101个示例(基于python 3)

https://github.com/compjour/search-script-scrape

阅读更多
文章标签: r语言 数据
个人分类: R语言学习
想对作者说点什么? 我来说一句

没有更多推荐了,返回首页

加入CSDN,享受更精准的内容推荐,与500万程序员共同成长!
关闭
关闭