Spider
炮姐的呱太
这个作者很懒,什么都没留下…
展开
-
使用ruby_Hpricot_httpclient 获取网页图片
使用ruby_Hpricot_httpclient 获取网页图片原创 2015-06-04 16:17:47 · 853 阅读 · 0 评论 -
Html编码
require 'htmlentities' coder = HTMLEntities.new(:expanded) coder.decode("条例")原创 2015-10-10 15:39:05 · 429 阅读 · 0 评论 -
一个简单的爬虫
获取bit.edu的一个校内新闻的一页数据,将结果存放到redis中require 'redis' require 'httpclient' require 'hpricot' require 'json'class String def gsub_html self.gsub(/\r|\t|\n/,"").gsub(/<(\S*?)[^>]*>.*?|<.*? \/>/,"原创 2016-01-25 17:05:22 · 499 阅读 · 0 评论 -
html_to_pdf
将网页html转化成pdfgem包安装: 1. gem install 'wicked_pdf' 2. gem install 'wkhtmltopdf-binary' 3. gem install 'httpclient' 4. gem install 'hpricot'require 'wicked_pdf' require 'httpclient' require 'hpricot'@c原创 2016-01-29 09:18:21 · 595 阅读 · 0 评论 -
sipder获取p站spotlight栏目的图片
require 'httpclient' require 'hpricot' require 'mechanize'@client = Mechanize.new def get_list for i in 2..4 link = "http://spotlight.pics/zh/?p=#{i}" heads={ "Accept"=>原创 2016-02-16 16:43:13 · 758 阅读 · 0 评论 -
爬虫遇见的编码问题汇总
问题1 中文:北京 在浏览器(chrome)中被转换成 %B1%B1%BE%A9 同时打开浏览器中发现 (unable to decode value) 解决方法: 通过: URI.decode("%B1%B1%BE%A9") 结果是\xB1\xB1\xBE\xA9 (gb2132的编码格)require 'uri' #对中文先进行一次编码 str = "北京".encode("g原创 2016-03-17 16:25:25 · 1840 阅读 · 0 评论