Python爬虫
dxk_093812
这个作者很懒,什么都没留下…
展开
-
Python爬虫(一)爬虫的原理
在输入网址后,你便可以在网页中看见各式各样的内容,有图片、视频及文本等。这是因为输入网址后DNS服务器寻找服务器主机,并且向它发送请求,服务器接收请求后解析并作出响应,将结果返回给浏览器,浏览器再将结果进行解析,这便是我们在网页中看到的内容。因此,爬虫的基本流程如下。爬虫的基本流程(1)发送请求 通过HTTP向站点发送Request请求,请求中包含header等信息。(2)获...原创 2018-07-25 10:13:24 · 2324 阅读 · 0 评论 -
scrapy初介绍
Scrapy是为了爬取网站数据,提取结构性数据而编写的应用框架。这篇文章将简要的介绍一下scrapy项目的基本结构,并且通过一个项目来演示整个开发流程。scrapy的安装我们使用的是pip命令: pip install Scrapy首先在命令行中进入存储项目的目录中,运行如下代码:scrapy startproject tutorial随后自动创建一个初步的scr...原创 2018-09-04 15:49:13 · 148 阅读 · 0 评论 -
Python爬虫(二)urllib库的使用
了解了爬虫的基本原理后,接下来我们就可以爬取网页内容。网页其实是由HTML代码和JS、CSS等组成的。urllib是python提供的HTTP请求库,它有许多模块供我们爬取使用。urllib.request 首先使用urlopen打开一个url,可以获取页面的源代码。 import urllib.requestresponse=urllib.request.urlopen("h...原创 2018-09-09 10:37:46 · 272 阅读 · 0 评论 -
scrapy学习之spider
之前说过Spider定义了如何爬取网站,也就是说我们是在Spider中编写爬取网页内容的代码。接下来我们更加详细的说明一下Spider的工作内容。 class scrapy.spider.Spider Spider类是最简单的spider,其他的spider必须继承该类。Spider的功能就是请求给定的start_urls/start_requests,然后根据返回的结果(respo...原创 2018-09-10 11:42:52 · 168 阅读 · 0 评论 -
深入理解HTTP【转载】
出处:深入理解HTTP—Joanna.Yan先看一个简单的http请求和响应:1.HTTP协议是什么**?** 我们浏览的每一个网页都是基于HTTP协议呈现的,HTTP协议是互联网应用中,客户端(浏览器)与服务器之间进行数据通信的一种协议。协议中规定了客户端应该按照什么格式给服务器发送请求,同时也约定了服务端返回的响应结果应该是什么格式。只要大家都按照协议规定方式发起...转载 2018-11-29 10:14:20 · 139 阅读 · 0 评论 -
Python爬虫(三)cookie和session
什么是Session?由于Http协议具有无状态性,也就是他对事物处理没有记忆能力。当我们向web站点发送请求时,服务器并不知道用户的信息。这会带来不便,比较典型的就是淘宝的购物车,当我们向往购物车里添加商品时,由于无状态性,服务器并不能分辨不同的用户。因此,我们需要标识用户。现实中,淘宝服务器会为用户创建Session,它唯一标识了这个用户并进行跟踪。Session就是指我们打开一个网站到我们...原创 2018-12-08 12:16:36 · 247 阅读 · 0 评论 -
Python爬虫(四)SSL证书
我们可以发现,现在大部分的网站都是以https开头的。我们知道HTTP是指从WWW服务器传输超文本到本地浏览器的传输协议。那https中多出的s又代表着什么呢?这就是本文要讲的SSL。HTTPS是以安全为目标的HTTP通道,也就是说在HTTP的基础加上了SSL层,使数据传输更加的安全。SSL: -SSL证书就是遵守SSL安全套阶层协议的服务器数字证书(SecuritySocketLayer...原创 2018-12-08 22:47:09 · 1192 阅读 · 0 评论