利用hpricot抓取baidu的图片-CSDN博客

最近忙里抽闲，研究了一下hpricot，感觉真是不错，我用它很轻松地实现了百度图片的批量下载。

如：在百度图片搜索中输入“泰晤士河”，想把查找到的所在大图片都拉到本地电脑上面，还要一个个去点小图片，进入大图显示页面，才能将图片保存起来，真是不方便。

现在我通过hpricot来搞定这个。
目标URL就是我百度图片搜索中输入“泰晤士河”产生的URL：
[url]http://image.baidu.com/i?tn=baiduimage&ct=201326592&cl=2&lm=-1&pv=&word=%CC%A9%CE%EE%CA%BF%BA%D3&z=0[/url]
我现在通过hpricot找出查询结果中的所有显示大图的页面链接，然后再在大图中分析URL，找出大图img的src，进而利用open-uri进行文件读写，从而把图片拉下来。

现在在看一下代码吧，看，代码量这么少，Ruby就是方便和人性化。


require 'rubygems'  
require 'hpricot'
require 'open-uri'

#取得查询结果页面的所有指向大图页面的链接（目前取了第一页）
def get_link_list								
	target_url = "http://image.baidu.com/i?tn=baiduimage&word=%CC%A9%CE%EE%CA%BF%BA%D3&z=0&lm=-1&ct=201326592&cl=2"
	doc = open(target_url) { |f| Hpricot(f) }
	link_list = Array.new
	doc.search("div#imgid/dl/dd/div/a").each do |r|
		link_list << "http://image.baidu.com"+r.attributes["href"]
	end	
 	link_list
end

#将大图页面中的大图片下载到本地电脑
def down_load(url)
	doc = open(url) { |f| Hpricot(f) }
	#     /div/table/tbody/tr/td
	doc.search("a[@target='_top']/") do |r|
		file_url = r.attributes["src"]
		puts file_url + "\n"
		file_name = file_url[file_url.rindex("/")+1, file_url.size]
		open(file_url) do |data|
		new_image = File.new(file_name, "w")
		new_image.puts data.read
		new_image.close
		end
	end
end

#将所有的图片都下载到本地电脑中
def down_load_all_images
	get_link_list.each do |url|
		down_load(url)
	end
end

#执行方法
down_load_all_images