python爬虫
文章平均质量分 90
自学也学好编程
这个作者很懒,什么都没留下…
展开
-
Python爬虫学习笔记(七)——requests(下)
文章目录Python爬虫第三章 基本库的使用第2节 使用requests二、高级用法Python爬虫第三章 基本库的使用最基础的HTTP 库有urllib 、httplib2 、requests 、treq 等。Python提供了这些功能齐全的类库来帮助我们完成模拟浏览器向服务器发出请求。第2节 使用requests二、高级用法requests的一些高级用法,如文件上传、Cookies 设置、代理设置等。文件上传——files参数import requestsfiles =原创 2021-05-17 21:34:12 · 296 阅读 · 0 评论 -
Python爬虫学习笔记(七)——requests(上)
Python爬虫第三章 基本库的使用最基础的HTTP 库有urllib 、httplib2 、requests 、treq 等。Python提供了这些功能齐全的类库来帮助我们完成模拟浏览器向服务器发出请求。第2节 使用requests一、基本用法实例import requestsr = requests.get('https://www.baidu.com')print(type(r))print(r.status_code)print(r.text)结果:[外链图片转存原创 2021-05-17 21:23:38 · 114 阅读 · 0 评论 -
Python爬虫学习笔记(六)——urllib(下)
文章目录Python爬虫三、解析链接——parsePython爬虫三、解析链接——parseparse模块定义了处理URL 的标准接口,例如实现URL 各部分的抽取、合并以及链接转换。urlparse()该方法可以实现URL 的识别和分段from urllib.parse import urlparseresult = urlparse('http://www.baidu.com/index.html;user?id=5#comment')print(type(result原创 2021-05-07 17:15:28 · 191 阅读 · 0 评论 -
Python爬虫学习笔记(六)——urllib(上)
文章目录Python爬虫第三章 基本库的使用第1节 使用urllib一、发送请求——request二、处理异常——errorPython爬虫第三章 基本库的使用最基础的HTTP 库有urllib 、httplib2 、requests 、treq 等。Python提供了这些功能齐全的类库来帮助我们完成模拟浏览器向服务器发出请求。第1节 使用urlliburllib库是Python内置的HTTP请求库,它包含如下4 个模块。request: 它是最基本的HTTP请求模块,可以用来模拟发送原创 2021-05-05 21:45:28 · 122 阅读 · 0 评论 -
Python爬虫学习笔记(五)——代理
文章目录Python爬虫第二章 爬虫基础第5节 代理的基本原理一、基本原理二、代理的作用三、爬虫代理四、代理分类五、常见代理设置三、爬虫代理四、代理分类五、常见代理设置Python爬虫第二章 爬虫基础第5节 代理的基本原理网站采取了一些反爬虫措施。比如,服务器会检测某个IP在单位时间内的请求次数,如果超过了这个阔值,就会直接拒绝服务,返回一些错误信息,这种情况可以称为封IP 。一、基本原理代理实际上指的就是代理服务器,它的功能是代理网络用户去取得网络信息。形象地说,它是网络信息的中原创 2021-04-28 22:17:24 · 148 阅读 · 0 评论 -
Python爬虫学习笔记(四)——会话和Cookies
文章目录Python爬虫第二章 爬虫基础第4节 会话和Cookies一、静态网页和动态网页二、无状态HTTP三、会话和Cookies的原理四、常见误区Python爬虫第二章 爬虫基础第4节 会话和Cookies一、静态网页和动态网页由HTML代码编写的,文字、图片等内容均通过写好的HTML代码来指定的页面,叫作静态网页。它加载速度快,编写简单,但是存在很大的缺陷,如可维护性差,不能根据URL灵活多变地显示内容等。例如,我们想要给这个网页的URL 传入一个参数,让其在网页中显示出来,是无法做到原创 2021-04-27 22:44:16 · 93 阅读 · 0 评论 -
Python爬虫学习笔记(三)——爬虫基本原理
文章目录Python爬虫第二章 爬虫基础第3节 爬虫的基本原理一、爬虫概述二、能抓取的数据三、通过JavaScript渲染的页面Python爬虫第二章 爬虫基础第3节 爬虫的基本原理一、爬虫概述获取网页:获取网页,就是获取网页的源代码。向网站的服务器发送一个请求,返回的响应体便是网页源代码。Python提供了urllib、requests等库来帮助我们实现这个操作。我们可以用这些库来帮助我们实现HTTP请求操作,请求和响应都可以用类库提供的数据结构来表示,得到响应之后只需原创 2021-04-24 21:14:51 · 282 阅读 · 0 评论 -
Python爬虫学习笔记(二)——网页基础
文章目录Python爬虫第二章 爬虫基础第2节 网页基础一、网页的组成二、网页的结构三、节点树和节点间的关系四、选择器Python爬虫第二章 爬虫基础第2节 网页基础一、网页的组成网页可以分为三大部分一一HTML , CSS 和JavaScript 。如果把网页比作一个人的话, HTML 相当于骨架, JavaScript 相当于肌肉, CSS相当于皮肤,三者结合起来才能形成一个完善的网页。HTML网页包括文字、按钮、图片和视频等各种复杂的元素,其基础架构就是HTML。不同类型的原创 2021-04-20 22:45:19 · 204 阅读 · 0 评论 -
Python爬虫学习笔记(一)——HTTP基本原理
文章目录Python爬虫第二章 爬虫基础第1节 HTTP基本原理一、URI 和URL二、超文本三、HTTP和HTTPS四、HTTP请求过程五、请求六、响应Python爬虫第二章 爬虫基础第1节 HTTP基本原理一、URI 和URLURI的全称为Uniform Resource Identifier ,即统一资源标志符,URL的全称为Universal Resource Locator ,即统一资源定位符。URL是URI的子集,也就是说每个URL都是URI。URI还包括一个子类叫作U原创 2021-04-20 22:36:07 · 360 阅读 · 0 评论