![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
狼性书生
臭虫洗香香
展开
-
采用requests请求+xpath与正则表达式解析+Mysql与json存取:爬取高考网主页与子页的学校基本信息和往年录取分数线
爬取高考网主页与子页的学校基本信息和往年录取分数线高考网创建Mysql数据库和存储实现先了解下高考网的一些爬取阻碍完整代码高考网链接: http://college.gaokao.com/schlist/a14/p1/本章主要介绍下简单的爬取,不采用任何框架,只爬取广东省内的高校,让读者能对requests的请求方式,正则表达式与xpath的解析方式,json与MYSQL的存取方式有一定了解...原创 2019-03-06 22:42:47 · 825 阅读 · 1 评论 -
爬取今日头条-图片,进一步了解Ajax的分页模拟,以及存入关系型数据库MySQL和非关系型mongodb的基本代码
爬取今日头条-图片与上一篇爬取‘今日头条-街拍’分页模拟的区别(其他步骤大致一样)分析Headers代码构造代码实现实现结果与上一篇爬取‘今日头条-街拍’分页模拟的区别(其他步骤大致一样)上一篇爬取‘今日头条-街拍’时,分页的实现可以简单的通过Query String Parameters获取到其固有的分页参数,而这次爬取今日头条-图片集,Query String Parameters中的...原创 2019-03-19 23:30:52 · 416 阅读 · 1 评论 -
爬取今日头条-街拍,了解Ajax分析的流程、Ajax分页的模拟以及图片的下载
爬取今日头条-街拍什么是Ajax查看并分析请求解析内容图片下载:代码实现运行结果:什么是AjaxAjax,即异步的Javascript和XML,利用Javascript在保证页面不被刷新、页面链接不改变的情况下与服务器交换数据并更新部分网页的技术.想进一步了解的可以到W3School中学习.查看并分析请求1.查看请求:以Chrome浏览器为例,用Chrome浏览器打开今日头条-街拍的链接...原创 2019-03-15 21:51:44 · 204 阅读 · 0 评论 -
selenium模拟浏览器-----爬取马蜂窝地区全部景点
为什么使用selenium在前面的文章中,我们了解了Ajax的分析和爬取方式,但是,对于参数加密复杂的网页来说,用之前构造请求头的方法来爬取数据未免显得困难,所以这里我们选择了使用selenium。Selenium是一个自动化测试工具,通过它我们可以驱动浏览器执行特定的动作,对于一些参数加密复杂的javaScript渲染的页面来说,抓取效果很好。采用selenium,我们可以做到可见即可爬...原创 2019-04-29 17:56:24 · 1724 阅读 · 2 评论 -
selenium实现定位截图----获取验证码图片
获取验证码的步骤:浏览器最大化,截取整个网页,并保存 定位验证码(通过id或class元素实现定位) 获取验证码的x,y坐标轴,以及长宽,形成我们需要获取的位置坐标 打开之前保存的网页截图,从中截取验证码 保存验证码,等待识别这里我们以搜狗微信公众号的验证页为例,实现验证码的定位截取。# encoding:utf-8from PIL import Imagefrom sel...原创 2019-05-26 10:46:18 · 14164 阅读 · 14 评论