mechanize模拟登录与爬取数据

(1)mechanize
gem install mechanize
(2)模拟浏览器行为
require "mechanize"
agent = Mechanize.new
agent.user_agent="Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.103 Safari/537.36"
# 获得一个page对象
page = agent.get("http:/xxxxxxx/")
form = page.forms[0]
username_field = form.field_with(:name="username")
username_field.value = "xxxxx"
password_field = form.field_with(:name=>"password")
password_field.value = "xxxxxxx"

#提交表单返回一个page
step2_page = agent.submit form
上面就能模拟登录

爬取登录网站的信息
(1)登录之后操作相关页面 current_page等等
(2)保存cookie到一个文件然后直接get登录后才能看到的页面
保存填充登录信息后的cookie,可以save,这样永久保存,以后就可以不用登录了
tmp_cookie1 = agent.cookie_jar
#访问一个新的地址即需要登录的地址之前需要把相应的cookie加载进去
agent.cookie_jar = tmp_cookie1

对于需要验证码的自己没用mechanize做过,用casperjs做过,应该可以自己直接浏览器登录获得他们的cookie然后像第二步一样的方式。也可以登录时获取

解析css使用nokogori
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值