采集碰到的一大堆麻烦事

今天想采集一个网站,准备拿ruby来练练,结果碰到一大堆麻烦事,C#代码写的是多点,感觉还是顺手些。

由于不想写正则,找了几个插件试

(1)scrapi,顺利安装完成,确根本采集不到信息

require 'scrapi'
require 'open-uri'

task :dream => :environment do 
     url='http://www.hushibo.cn' 
     html = open(url).read
     
     puts html 
end

 

就这就报一大堆错,实在没信心写下去了,换下一个 Hpricot

gem install hpricot

 

结果在windows ruby1.9.1上装不了,万股无奈下只好用nokogiri,用的人确很少,文档太难找,http://nokogiri.org/Nokogiri/XML/NodeSet.html硬着头皮看了半天,总算知道了点皮毛,把我的采集任务算是完成了

require 'nokogiri'
require 'open-uri'

task :dreamtype => :environment do 
    doc = Nokogiri::HTML(open('http://www.hushibo.cn'))
    tpes = []
    doc.css("table.txt>td:nth-child(12)>a").each do |link|
        #puts link.content
	tpes.push(link.content)
    end
    #puts doc
    tpes.each do |t|
        #puts tpes.length
        Dream.create(:parent_id => 6,:name => t)
    end

end

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值