python爬虫
文章平均质量分 70
纯白软
这个作者很懒,什么都没留下…
展开
-
爬虫打卡第五天——urllib模块
一、基础模块request :用于请求网址的模块 error:异常处理模块 parse:用于修改拼接等的模块 robotparser:用来判断哪些网站可以爬,哪些网站不可以二、urllib使用以自己的博客为例https://blog.csdn.net/m0_60960867?spm=3001.5343①请求网址import urllib.request requset = urllib.request.Request('https://blog.csdn....原创 2021-11-23 20:32:30 · 268 阅读 · 0 评论 -
爬虫学习打卡第四天——requests实战
实战运用requests一、爬搜狗# -*- coding: utf-8 -*-import requestsurl="http://www.sogou.com"respond=requests.get(url)#1respond.encoding=respond.apparent_encodingprint(respond.text)代码分析:1、respond.encoding作用从http header中提取响应内容编码。若header中没有charset字段则默认为I原创 2021-11-17 22:53:46 · 279 阅读 · 0 评论 -
爬虫学习打卡第三天——requests高阶
今天学习requests高阶知识目录一、SSL验证二、代理设置三、超时设置四、身份认证五、总结一、SSL验证SSL认证是指客户端到服务器端的认证。主要用来提供对用户和服务器的认证;对传送的数据进行加密和隐藏;确保数据在传送中不被改变,即数据的完整性。(来自百度)以百度为例:先简单的请求一下import requestsresponse = requests.get('https://www.baidu.com')print(response.status_cod原创 2021-11-13 22:37:00 · 2592 阅读 · 0 评论 -
爬虫学习打卡第二天——requests基础
今天学习爬虫的一个模块:requests(基础)目录一、工具与环境二、GET请求1、基础Ⅰ:requests的get用法2、基础Ⅱ:反扒问题3、基础Ⅲ4、基础Ⅳ:获取请求头5、基础Ⅴ:获取cookie6、基础Ⅵ:添加请求头7、抓取二进制数据三、POST请求一、工具与环境①环境:jupyter②需要安装模块:requests!pip install requests在jupyter新建一个python3,输入如上代码,运行即可。二...原创 2021-11-12 23:42:40 · 664 阅读 · 0 评论 -
爬虫学习打卡第一天-Jupyter与Anaconda安装配置
一、配置安装Anaconda1.到清华大学开源软件镜像站官网下载Anacondahttps://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/由于本人用的是windows11系统,所以windows系统按照这个最新版本安装然后等待2、下载完以管理员权限运行选择All Users3、安装在其它盘4、全选①添加环境变量。②安装py3.8。5、安装完成在桌面建立一个快捷方式...原创 2021-11-10 22:23:54 · 1022 阅读 · 0 评论