网络爬虫
洪流之源
这个作者很懒,什么都没留下…
展开
-
Python网络爬虫笔记(6)GET请求和POST请求
urllib.urlencode()urllib 和 urllib2 都是接受URL请求的相关模块,但是提供了不同的功能。两个最显著的不同如下:urllib 仅可以接受URL,不能创建 设置了headers 的Request 类实例;但是 urllib 提供 urlencode 方法用来GET查询字符串的产生,而 urllib2 则没有。(这是 urllib 和 urllib2 经常一起使用的主要...原创 2018-04-17 08:58:34 · 403 阅读 · 0 评论 -
Python网络爬虫笔记(10)Cookie
Cookie 是指某些网站服务器为了辨别用户身份和进行Session跟踪,而储存在用户浏览器上的文本文件,Cookie可以保持登录信息到用户下次与服务器的会话。Cookie原理HTTP是无状态的面向连接的协议, 为了保持连接状态, 引入了Cookie机制 Cookie是http消息头中的一种属性,包括:Cookie名字(Name)Cookie的值(Value)Cookie的过期时间(Expir...原创 2018-04-25 10:20:41 · 396 阅读 · 0 评论 -
Python网络爬虫笔记(10)密码管理类 HTTPPasswordMgrWithDefaultRealm
HTTPPasswordMgrWithDefaultRealm()类将创建一个密码管理对象,用来保存 HTTP 请求相关的用户名和密码,主要应用两个场景:验证代理授权的用户名和密码 (ProxyBasicAuthHandler())验证Web客户端的的用户名和密码 (HTTPBasicAuthHandler())ProxyBasicAuthHandler(代理授权验证)如果我们使用之前的代码来使用...原创 2018-04-24 16:37:51 · 3788 阅读 · 0 评论 -
Python网络爬虫笔记(8)Handler处理器 和 自定义Opener
opener是 urllib.request.OpenerDirector 的实例,我们之前一直都在使用的urlopen,它是一个特殊的opener(也就是模块帮我们构建好的)。但是基本的urlopen()方法不支持代理、cookie等其他的HTTP/HTTPS高级功能。所以要支持这些功能:使用相关的 Handler处理器 来创建特定功能的处理器对象;然后通过 urllib.request.bui...原创 2018-04-24 16:27:30 · 232 阅读 · 0 评论 -
Ajax数据爬取(4)分析Ajax爬取今日头条街拍美图
转载请注明:静觅 » [Python3网络爬虫开发实战] 6.4-分析Ajax爬取今日头条街拍美图转载 2018-04-24 15:44:10 · 650 阅读 · 1 评论 -
Ajax数据爬取(3)Ajax结果提取
转载请注明:静觅 » [Python3网络爬虫开发实战] 6.3-Ajax结果提取转载 2018-04-24 15:42:59 · 456 阅读 · 0 评论 -
Ajax数据爬取(2)什么是Ajax
转载请注明:静觅 » [Python3网络爬虫开发实战] 6.1-什么是Ajax转载 2018-04-24 15:41:27 · 274 阅读 · 0 评论 -
Ajax数据爬取(1)为什么要用Ajax
有时候我们在用requests抓取页面的时候,得到的结果可能和在浏览器中看到的不一样:在浏览器中可以看到正常显示的页面数据,但是使用requests得到的结果并没有。这是因为requests获取的都是原始的HTML文档,而浏览器中的页面则是经过JavaScript处理数据后生成的结果,这些数据的来源有多种,可能是通过Ajax加载的,可能是包含在HTML文档中的,也可能是经过JavaScript和特...转载 2018-04-24 15:39:50 · 553 阅读 · 0 评论 -
Python网络爬虫笔记(5)urllib2库的基本使用
所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地。 在Python中有很多库可以用来抓取网页,我们先学习urllib2。urllib2 是 Python2.7 自带的模块(不需要下载,导入即可使用)urllib2 官方文档:https://docs.python.org/2/library/urllib2.htmlurllib2 源码:https://hg.python...原创 2018-04-13 15:35:59 · 214 阅读 · 0 评论 -
Python网络爬虫笔记(4)HTTP代理神器Fiddler
Fiddler是一款强大Web调试工具,它能记录所有客户端和服务器的HTTP请求。 Fiddler启动的时候,默认IE的代理设为了127.0.0.1:8888,而其他浏览器是需要手动设置。工作原理Fiddler 是以代理web服务器的形式工作的,它使用代理地址:127.0.0.1,端口:8888Fiddler抓取HTTPS设置启动Fiddler,打开菜单栏中的 Tools > Telerik...原创 2018-04-13 15:17:51 · 388 阅读 · 0 评论 -
Python网络爬虫笔记(3)HTTP和HTTPS
HTTP协议(HyperText Transfer Protocol,超文本传输协议):是一种发布和接收 HTML页面的方法。HTTPS(Hypertext Transfer Protocol over Secure Socket Layer)简单讲是HTTP的安全版,在HTTP下加入SSL层。SSL(Secure Sockets Layer 安全套接层)主要用于Web的安全传输协议,在传输层对网...原创 2018-04-13 13:57:40 · 2201 阅读 · 0 评论 -
HTTP协议与浏览器解析
1. 使用谷歌/火狐浏览器分析在Web应用中,服务器把网页传给浏览器,实际上就是把网页的HTML代码发送给浏览器,让浏览器显示出来。而浏览器和服务器之间的传输协议是HTTP,所以:HTML是一种用来定义网页的文本,会HTML,就可以编写网页;HTTP是在网络上传输HTML的协议,用于浏览器和服务器的通信(现在HTTP协议不仅仅能够传输html、css、js,而且还能传输json、xml、图片等)。...原创 2018-04-13 12:02:44 · 2109 阅读 · 0 评论 -
Python网络爬虫笔记(2)通用爬虫和聚焦爬虫
通用爬虫和聚焦爬虫根据使用场景,网络爬虫可分为 通用爬虫 和 聚焦爬虫 两种.通用爬虫通用网络爬虫 是 捜索引擎抓取系统(Baidu、Google、Yahoo等)的重要组成部分。主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。通用搜索引擎(Search Engine)工作原理通用网络爬虫 从互联网中搜集网页,采集信息,这些网页信息用于为搜索引擎建立索引从而提供支持,它决定着整个...原创 2018-04-12 11:19:13 · 1673 阅读 · 0 评论 -
Python网络爬虫笔记(7)处理HTTPS请求 SSL证书验证
现在随处可见 https 开头的网站,urllib2可以为 HTTPS 请求验证SSL证书,就像web浏览器一样,如果网站的SSL证书是经过CA认证的,则能够正常访问,如:https://www.baidu.com/等...如果SSL证书验证不通过,或者操作系统不信任服务器的安全证书,比如浏览器在访问12306网站如:https://www.12306.cn/mormhweb/的时候,会警告用户证...原创 2018-04-17 09:43:19 · 6419 阅读 · 0 评论 -
使用BeautifuSoup4的爬虫
我们以腾讯社招页面来做演示:http://hr.tencent.com/position.php?&start=10#a使用BeautifuSoup4解析器,将招聘网页上的职位名称、职位类别、招聘人数、工作地点、发布时间,以及每个职位详情的点击链接存储出来。from bs4 import BeautifulSoupimport urllib.requestimport json ...原创 2018-05-24 09:15:08 · 285 阅读 · 0 评论