关闭

R语言-Kindle特价书爬榜示例 & 输出HTML小技巧

标签: r语言数据
422人阅读 评论(0) 收藏 举报
分类:

转载自:http://www.cnblogs.com/weibaar/p/4824578.html


自从买了kindle以后,总是想要定期刷有没有便宜的书,amazon经常有些1元/2元的书打特价,但是每次都去刷那些榜单太麻烦了,而且榜单又不能按照价格排名,捞书有点累

所以自己用R语言的rvest包简单写了一个小程序,让它自动按照不同价格区间把特价书给分出来。

主要看的是kindle新品排行榜和最快畅销榜。

销售爬升最快榜: http://www.amazon.cn/gp/movers-and-shakers/digital-text/

新品榜: http://www.amazon.cn/gp/new-releases/digital-text/

 

需要预先安装data.table / dplyr / rvest包。

代码如下

install.packages("rvest")
install.packages("data.table")
install.packages("dplyr")

 

主要分享点是:

1、Rvest的简单应用实例
2、如何把数据框(data.frame or table) 输出为html文件,即添加html脚本的方法

 

自从买了kindle以后,总是想要定期刷有没有便宜的书,amazon经常有些1元/2元的书打特价,但是每次都去刷那些榜单太麻烦了,而且榜单又不能按照价格排名,捞书有点累

所以自己用R语言的rvest包简单写了一个小程序,让它自动按照不同价格区间把特价书给分出来。

主要看的是kindle新品排行榜和最快畅销榜。

销售爬升最快榜: http://www.amazon.cn/gp/movers-and-shakers/digital-text/

新品榜: http://www.amazon.cn/gp/new-releases/digital-text/

 

需要预先安装data.table / dplyr / rvest包。

代码如下

install.packages("rvest")
install.packages("data.table")
install.packages("dplyr")

 

主要分享点是:

1、Rvest的简单应用实例
2、如何把数据框(data.frame or table) 输出为html文件,即添加html脚本的方法

最后在我的文档("~//"表示定位到我的文档那里)会找到三个HTML文件,打开来,大概长下面这个样子,于是就可以很愉悦得选书了。Kindle时不时会把一些好书1元贱卖的~~所以有了kindle经常手贱,有这个小脚本之后我觉得我会更加手贱买书了。。。

 

如果大家有兴趣,还可以去搜一下R语言批处理、自动运行等文章来看,把这个代码设为定期跑一下,然后让结果能够累计保存。那么以后就知道kindle商城在什么时候调价最多了。 amazon还是比较容易爬虫的,它html页面内代码很规范整洁,除了在产品详情页里,产品描述(product description)总是被脚本保护起来,比较难爬。

 

以及最近开始学python了!

大牛分享了一个很好用的python IDE,叫做ANACONDA,里面那个spyder的IDE真的做的很棒~~跟rstudio有的一拼~ 而且ANACONDA集成了python 2.7,都不用单独下python了~~

然后github上有两个教程写的还蛮不错的

1、 python入门

https://github.com/qiwsir/StarterLearningPython

2、python爬虫101个示例(基于python 3)

https://github.com/compjour/search-script-scrape

0
0
查看评论

R语言 爬数据

爬数据的两大难点: 1.分析网络结构 2.写正则表达式 科普版: install.packages("RCurl") library(RCurl) url1='http://shenzhen.lashou.com/cate/meishi' web=...
  • u011454283
  • u011454283
  • 2016-11-30 23:44
  • 1031

R语言实用小技巧

这篇文章介绍的是我平时写程序遇到的各种小问题,以及解决他们的小技巧 1.R语言读取EXCEL 2.如何在R中构造一个hash函数 3.如何用最快最简单的方法加快R的执行速度? 4.如何读取一个文件夹所有的文件?
  • a358463121
  • a358463121
  • 2016-06-27 17:28
  • 4176

HTML第八章定位网页元素上机题4---------------当当图书榜

当当图书榜 尾品汇 当当优品 数字馆 都看阅器 首页 图书 音像 童装 服装 鞋靴 运动 箱包 美妆 珠宝 家居 食品 酒 手机 数码 电脑 家电 ...
  • qq_36074113
  • qq_36074113
  • 2016-10-21 16:03
  • 1335

R中用markdown+knitr生成html文件

具体步骤为: 1. 先在R中建一份R-Markdown(.md)文件,可直接在其中写Markdown脚本。 2. 可以通过以下方式插入R脚本,并可以通过调参,控制R程序的输出包括表和图的各种属性控制。 3. 最后通过Knitr来运行这份.md文件可直接生产一份html文档,也可通过latex进...
  • shanl2014
  • shanl2014
  • 2015-09-21 21:49
  • 438

网页数据爬虫-R语言

最早接触爬虫是利用java写脚本,后来自学了利用python进行爬虫来做入门,会用scrapy,最近用了下R,找了几个不同类型的字段获取,当作好玩吧。
  • fanfanrenrenmi
  • fanfanrenrenmi
  • 2016-09-18 21:53
  • 5009

34行代码爬取微博实时热搜榜单

微博大家都用着,相信大家也都关注了不少的明星,作为一枚合格的粉丝会经常关注明星的八卦动态。 如何判断一个明星红不红,看她/他上热搜的次数有多少!!!当然了现在微博的热搜也变味了,不仅仅靠数据统计汇总,大明星随随便便花点儿钱就能买个热搜霸榜几个小时,反而是一些真实需要关注的事儿却上不了热搜,比如...
  • a910629820
  • a910629820
  • 2017-12-28 10:10
  • 411

R Markdown生成动态分析报告(.html)

发现一个比Latex生成动态分析报告方便无数倍的R Markdown 1.配置环境 tools --global options--sweave的weave Rnw files using改为knitr 2.新建R Markdown file,测试代码如下 R CODE BY 小酥饼maomao =...
  • u011454283
  • u011454283
  • 2016-04-12 13:30
  • 2884

爬取2016-2017赛季NBA球员的数据

最近学习了下爬虫就自己想爬个NBA球员的数据,记录一下自己第一次的爬虫 其中有一个问题实在无法解决了,就是一些超长名字用制表符 “\t” 对不齐的情况,“\t”是根据前面有多少字符来决定空多少格,在网上看了一下好像是 8-n%8 个 数据是以txt文件的方式来储存的 第...
  • qq_32511479
  • qq_32511479
  • 2017-05-22 19:05
  • 906

R语言-数据结构之初体验(parse html)

R语言-数据结构之初体验(parse html)最近刚刚接触R语言,之前知道一些R语言的一些基本知识,这几天开始进行一些练习。题目:从Download Stats for Bioconductor Software Packages(http://bioconductor.org/packages...
  • anananan2015forspy
  • anananan2015forspy
  • 2016-08-21 22:00
  • 706

R语言-读取、输出及操作

----------读取txt格式数据 a ----------读取xlsx(excel2007)的文件 library(xlsx) a --------与数据库连接取数 library(RMySQL) connectMySQL<-function(mysql,dbname,us...
  • qq_34941023
  • qq_34941023
  • 2016-05-31 23:11
  • 2996
    个人资料
    • 访问:84407次
    • 积分:1113
    • 等级:
    • 排名:千里之外
    • 原创:23篇
    • 转载:73篇
    • 译文:1篇
    • 评论:6条
    最新评论