反恐精英ol永恒python不能拍卖_web scraper无法解决爬虫问题?通通可以交给python!...

今天一位粉丝的需求所涉及的问题值得和大家分享分享~~~

背景问题

是这样的,他看了公号里的关于web scraper的系列文章后,希望用它来爬取一个网站搜索关键词后的文章标题和链接,如下图

按照教程,复制网页地址、写选择器、运行调试,发现无论怎样修改都无法提取到任何的信息。

问题分析

这个网站网址是:

http://cn.cccweb.org/portal/cms/listCmsInfo!luceneSearchResult.action

通过观察发现一些特征:

1、无论你点击那一页,这个网址都是一样的。

2、当你把这个网址复制到新的标签页里打开是,发现是空白的内容。

也就意味着这个网址搜索的时候提交的关键词等参数不会在地址栏当中显示,通过burp抓包也证实了我的猜测,是post请求。

那这样的话,web scraper是无法处理、爬取这类网址不变的页面。

那就没法爬了吗?

No!!!这不是还有万能的python啊

问题解决

简单上手的话,就用python+selenium库来搞定好了。。之前也写过文章介绍过:python实现浏览器自动化操作

selenium是一个用来自动化测试的庞大家族。

python中的selenium库可以简单理解为借助计算机来模拟人工的一些操作,借助这个我们可以实现让浏览器模拟我们人类,打开浏览器和网址,搜索关键词,提取并保存数据。

基本用法如下:

from selenium import webdriver

browser = webdriver.Chrome()

browser.get('http://www.baidu.com/')#打开百度

print(browser.title)#打印标题

browser.quit() #退出

以及

browser.find_element_by_id("searchContents").click()#点击搜索栏

browser.find_element_by_id("searchContents").send_keys("法国")#输入法国

browser.find_element_by_name("submit1").click()#点击搜索

browser.find_element_by_link_text("下一页>>").click()#点击下一页

使用效果如下:

最后保存的数据文件效果如下:

小结一下

1、web scraper爬虫工具小巧简单方便,但是功能有限,遇到像上面这种网址不变的情况,就不适用了。

2、python的selenium库,模拟操作浏览器、鼠标、键盘等爬取数据,简单直观。

3、爬虫入门python最适合不过了。

你可能还会想看:

欢迎交流!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值