![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python爬虫
「已注销」
这个作者很懒,什么都没留下…
展开
-
python爬虫 - 爬虫原理
爬虫,即网络爬虫,我们可以把互联网就比作一张大网,而爬虫便是在网上爬行的蜘蛛,我们可以把网的节点比做一个个网页,爬虫爬到这就相当于访问了该页面获取了其信息,节点间的连线可以比做网页与网页之间的链接关系,这样蜘蛛通过一个节点后可以顺着节点连线继续爬行到达下一个节点,即通过一个网页继续获取后续的网页,这样整个网的节点便可以被蜘蛛全部爬行到,这样网站的数据就可以被抓取下来了。爬虫概述可能上面的说明还...原创 2019-01-31 19:35:02 · 256 阅读 · 0 评论 -
python爬虫 - 网页基础
网页的组成网页可以分为三大部分,HTML、CSS、JavaScript,我们把网页比作一个人的话,HTML 相当于骨架,JavaScript 则相当于肌肉,CSS 则相当于皮肤,三者结合起来才能形成一个完善的网页,下面我们分别来介绍一下三部分的功能。HTML超文本标记语言(英语:HyperText Markup Language,简称:HTML)是一种用于创建网页的标准标记语言。HTML是一...原创 2019-01-31 19:23:10 · 324 阅读 · 0 评论 -
python爬虫 - 使用urllib
使用 Urllib 的 request 模块我们可以方便地实现 Request 的发送并得到 Response,我们本节来看下它的具体用法。urlopen()urllib.request 模块提供了最基本的构造 HTTP 请求的方法,利用它可以模拟浏览器的一个请求发起过程,同时它还带有处理authenticaton(授权验证),redirections(重定向),cookies(浏览器Coo...原创 2019-01-31 20:16:27 · 208 阅读 · 0 评论 -
python爬虫 - 使用requests
get()import requestsresponse = requests.get('https://httpbin.org/get')print(response.text)运行结果如下:{ "args": {}, "headers": { "Accept": "*/*", "Accept-Encod原创 2019-01-31 20:34:45 · 209 阅读 · 0 评论 -
python爬虫 - 使用urllib(二)
前面利用urlopen()的方法,打开一个http网页,但是想获得请求头,状态码等信息,又该如何操作?查看类型request.urlopen()打开的是什么?import urllib.requestresponse = urllib.request.urlopen('https://httpbin.org/get')print(type(response))运行结果如下:<...原创 2019-02-05 13:02:05 · 141 阅读 · 1 评论 -
python爬虫 - 使用urllib(三)
Request利用urlopen()方法可以实现最基本请求的发起,但这几个简单的参数并不足以构建一个完整的请求,如果请求中需要加入headers等信息,我们就可以利用更强大的Request类来构建一个请求。import urllib.requestrequest = urllib.request.Request('http://httpbin.org/get')response = ur...原创 2019-02-05 13:13:30 · 113 阅读 · 0 评论 -
python爬虫 - 使用urllib(四)
现在已经可以修改headers和data,那么网站登陆可能需要cookies或者proxy,这又该如何解决?cookiesCookies 的处理就需要 Cookies 相关的 Handler 了。import http.cookiejar, urllib.requestcookies = http.cookiejar.CookieJar()handler = urllib.reques...原创 2019-02-05 13:38:41 · 269 阅读 · 0 评论 -
python爬虫 - 爬取堆糖图片
堆糖网上储存着许多照片,现在就利用python来下载照片。打开搜索栏,搜索book,发现有许多照片,打开链接,再点击照片,得到类似https://b-ssl.duitang.com/uploads/item/201205/02/20120502002005_Aja53.jpeg的网址,这个就是照片的真正地址。网页已经找到,但是搜索结果多么多图片,不能每一张都点进去,寻找真正网址来下载,...原创 2019-02-05 14:10:44 · 784 阅读 · 0 评论