爬虫相关
爬虫有关学习笔记
Atanft
这个作者很懒,什么都没留下…
展开
-
requests.text与requests.content的区别
requests.txt返回的是unicode型数据 requsets.content返回的是bytes(二进制)型数据原创 2022-04-04 11:01:08 · 555 阅读 · 0 评论 -
request巩固深入案例
requests巩固深入案例介绍 实战巩固: ——需求:爬取搜狗指定词条对应的搜索结果页面(简易网页采集器) ——需求:破解百度翻译——需求:爬取豆瓣电影分类排行榜 https://movie.douban.com/中的电影详细数据 ——需求:爬取肯德基餐厅查询 https://www.kfc.com.cn/kfccda/index.aspx中指定地方的餐厅数 ——需求:爬取国家药品监督管理总局中基于中华人民共和国化妆品生产许可证相关数据 ...原创 2022-03-22 23:41:50 · 93 阅读 · 0 评论 -
request模块
涉及到网络请求的两个模块: ——urllib模块(古老不说) ——request模块 request模块:python中原生的一款基于网络请求的模块 〔特点:功能强大,简单便捷,效率极高〕 ——作用:模拟浏览器发请求 request模块的编码流程:(模拟浏览器)——指定url(与浏览器操作对应步骤,下同:向浏览器输入网址) ——发起请求(按回车键发起请求) ——获取响应的页面数据(出现页面) ——持久化存储 环境安装: —— pip install requests 实战编码:原创 2022-03-22 00:30:16 · 397 阅读 · 0 评论 -
http&https超文本传输协议
http协议 —概念:是用于从万维网(www)服务器传输超文本到本地浏览器的传送协议 〔理解:就是服务器和客户端进行数据交互(相互传输数据)的一种形式。类似于“黑话”,当服务器和客户端遵循http协议即可进行数据交互〕 常用请求头信息(Request Headers) —User-Agent:请求载体的身份标识 〔理解:在网站搜索框中录入网址按下回车即为发起一个请求,请求载体即为当前浏览器,身份标识一般是一串包含当前电脑操作系统版本、当前浏览器的版本等的字符串。 拓:使用编写代码的形式进行请求,当编写的爬虫原创 2022-03-20 01:51:47 · 2454 阅读 · 0 评论 -
浏览器F12(开发者调试工具)功能介绍(转载图片,学习自用)
原址https://www.cnblogs.com/uniquesnail/p/10761887.html 学习自用,侵删转载 2022-03-19 14:31:17 · 854 阅读 · 0 评论 -
F12调试界面改语言
右上角 点击设置 选择语言原创 2022-03-19 14:18:14 · 802 阅读 · 0 评论 -
robots.txt协议
robots.txt协议:君子协议,主要用于规定网站可爬取和不可爬取的数据 查看某网站的robots.txt协议,即在该网站后加/robots.txt 例如,淘宝:https://www.taobao.com/robots.txt原创 2022-03-19 00:44:08 · 604 阅读 · 0 评论