从别人的网站上爬取东西(你能把这事儿做得更简单么?)

从别人的网站上爬取东西(你能把这事儿做得更简单么?)


Ryan Bates在 他的RailsCasts中介绍了两个从别的网站爬取内容的小工具。
从头开始做从WalMate网站爬取商品价格并更新自己库中,边讲边做不超过15分钟。

看完第一个后感觉这个事情已经非常简单了:
#1: http://rails casts.com/episodes/173-screen-scraping-with-scrapi

再看第二个才知道我们还可以把事情做得更简单优雅些:
#2: http://railscasts.com/episodes/190-screen-scraping-with-nokogiri

其实还涉及到两个从页面中抓取CSS定位符的小工具,
一个是FireBug插件: http://www.quarkruby .com/2007/9/ ... tml-screen-scraping
另一个是相当有创意的 http://www.selectorgadget.com/   啥东西都不用装,拖到地址栏就可以用了。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值