![](https://img-blog.csdnimg.cn/af0995b13ef847bdbe91c56fde4a6347.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
Python爬虫实战笔记
文章平均质量分 71
2022年3月8日开始学习爬虫知识
LiBiGo
工学博士在读,主要从事智能制造、工业精密检测、智能化设备研发等方向研究,已发表二区Top文章一篇、国家级竞赛二等奖一项、已授权软件著作权两项、已发表中文期刊两篇,先后参与国家自然科学基金面上项目、省重点研发计划等课题。
展开
-
爬虫实战学习笔记_7 【实战】模拟下载页面视频(模板)
import requests # 导入requests模块import re # 导入re模块import os # 导入系统os模块# 实现发送网络请求,返回响应结果def send_request(url,headers): response = requests.get(url=url,headers=headers) # 发送网络请求 if response.status_code==200: html_.原创 2022-03-28 21:55:58 · 6856 阅读 · 0 评论 -
爬虫实战学习笔记_6 网络请求request模块:基本请求方式+设置请求头+获取cookies+模拟登陆+会话请求+验证请求+上传文件+超时异常
1 requestsrequests是Python中实现HTTP请求的一种方式,requests是第三方模块,该模块在实现HTTP请求时要比urlib、urllib3模块简化很多,操作更加人性化。2 基本请求方式由于requests模块为第三方模块,所以在使用requests模块时需要通过执行“pipinstallrequests”代码进行该模块的安装。如果使用了Anaconda,则不需要单独安装requests模块。2.1 requests发送GET请求+获取网站页面时,...原创 2022-03-28 21:51:15 · 7325 阅读 · 0 评论 -
Pytrch爬虫实战学习笔记_5 爬取某应图片壁纸
1 分析页面1.1 分析网址https://bing.ioliu.cn/?p=11.2 元素寻找页面2 代码编写import urllib3import reimport oshttp = urllib3.PoolManager() # 创建连接池管理对象# 定义火狐浏览器请求头信息headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:77.0) Gecko/2010..原创 2022-03-21 21:17:31 · 3609 阅读 · 0 评论 -
爬虫实战学习笔记_4 网络请求urllib3模块:发送GET/POST请求实例+上传文件+IP代理+json+二进制+超时
1 urllib3模块简介urllib3是一个第三方的网络请求模块(单独安装该模块),在功能上比Python自带的urllib强大。1.1了解urllib3urllib3库功能强大,条理清晰的用于HTTP客户端的python库,提供了很多Python标准库里所没有的重要特性。例如:线程安全。 连接池。 客户端SSL/TⅡS验证 使用multipart编码上传文件 Helpers用于重试请求并处理HTTP重定向. 支持gzip和deflate编码 支持HTTP和SOCKS代理 1原创 2022-03-21 20:47:42 · 8806 阅读 · 0 评论 -
爬虫实战学习笔记_3 网络请求urllib模块:设置IP代理+处理请求异常+解析URL+解码+编码+组合URL+URL连接
1 设置IP代理1.1 方法论述使用urllib模块设置代理IP是比较简单的,首先需要创建ProxyHandler对象,其参数为字典类型的代理IP,键名为协议类型(如HTTP或者HTTPS),值为代理链接。然后利用ProxyHandler对象与buildopener()方法构建一个新的opener对象,最后再发送网络请求即可。1.2 代码实现import urllib.request # 导入urllib.request模块url= 'https://www.httpbin.org/g原创 2022-03-10 20:10:34 · 3167 阅读 · 0 评论 -
爬虫实战学习笔记_2 网络请求urllib模块+设置请求头+Cookie+模拟登陆
1 urllib模块1.1 urllib模块简介Python3中将urib与urllib2模块的功能组合,并且命名为urllib。Python3中的urllib模块中包含多个功能的子模块,具体内容如下。urllib.request:用于实现基本HTTP请求的模块。 urlb.error:异常处理模块,如果在发送网络请求时出现了错误,可以捕获的有效处理。 urllib.parse:用于解析URL的模块。 urllib.robotparser:用于解析robots.txt文件,判断网站是否可以转载 2022-03-09 21:32:58 · 5311 阅读 · 0 评论 -
爬虫实战学习笔记_1 爬虫基础+HTTP原理
1 爬虫简介网络爬虫(又被称作网络蜘蛛、网络机器人,在某些社区中也经常被称为网页追逐者)可以按照指定的规则(网络爬虫的算法)自动浏览或抓取网络中的信息。1.1 Web网页存在方式表层网页指的是不需要提交表单,使用静态的超链接就可以直接访问的静态页面。 深层网页指的是需要用户提交一些关键词才能获得的Wb页面。深层页面需要访问的信息数量是表层页面信息数量的几百倍,所以深层页面是主要的爬取对象。1.2 网络爬虫的分类1.2.1通用网络爬虫/全网爬虫通用网络爬虫的爬行范围和数量巨大,对爬行速原创 2022-03-09 18:24:14 · 2579 阅读 · 0 评论