Ruby用百度搜索爬虫

Ruby用百度搜索爬虫

博主ruby学得断断续续,打算写一个有点用的小程序娱乐一下,打算用ruby通过百度通道爬取网络信息。

第三方库准备

  • mechanize:比较方便地处理网络请求,类似于Python中的requests
  • nokogiri:解析HTML文本,采用的是jquery选择器

步骤分析

  • 用mechanize创建一个agent对象
  • 我们首先登录百度主页
  • 找到百度『搜索』框的表单
  • 填写表单内容
  • 提交表单(agent用该表单的内容发出submit动作)
  • 分析百度获得的搜索结果列表
  • 用nokogiri解析HTML文本,提取出我们感兴趣的内容

代码

require 'mechanize'
require 'nokogiri'

# 百度搜索的关键字,可修改
keyword = 'ruby'

# 创建一个agent对象
agent = Mechanize.new
# 发送get请求获取页面
page = agent.get 'http://www.baidu.com/'
# 根据名字属性定位表单
search_form = page.form_with :name => 'f'
# 填表,搜索框的name是wd
search_form.field_with(:name => "wd").value = keyword
# 提交表单
search_results = agent.submit search_form
doc = Nokogiri::HTML(search_results.body)
doc.css('.c-container > h3 > a').each{
  |item|
  puts item.text
}

测试结果

1146398-20171127205407940-25915492.png

转载于:https://www.cnblogs.com/fanghao/p/7906084.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值