菜菜日记-CSDN博客

原创 Python爬虫UA伪装（简易网页采集器）

爬虫实战requests实现简易网页采集器UA伪装UAUA伪装requests实现简易网页采集器目标：实现输入关键字能爬取某一浏览器页面关键步骤：指定url，词条封装发起请求,get方法返回响应对象拼接参数，获取响应数据存储数据代码：import requestsif __name__ == "__main__": # url='https://www.sogou.com/web?query=菜菜' url = 'https://www.sogou.com/web'

2021-11-08 13:54:08 1586

原创 Python爬虫

自学爬虫第二章：requests模块注意：此文使用pycharm软件进行编辑1.requests介绍requests模块：python中原生的一款基于网络请求的模块作用：模拟浏览器发请求优点：功能强大，简单便捷，效率高2.request使用编码流程指定url发起请求,返回响应对象获取响应数据存储数据3.实战案例：搜狗页面爬取1.环境安装在控制台输入以下命令：pip install requests或者在本地安装，打开File–Settings-Project:Arit

2021-11-07 16:45:22 464

原创 Python爬虫

菜菜自学爬虫第一章节：入门前准备1.为什么学爬虫（Why?）2.什么是爬虫（What?）3.爬虫的来源与价值企业的数据来源爬虫的价值4.爬虫道德（如何避免进局子）5.爬虫在使用场景中的分类6.爬虫机制7. http/https协议http协议：服务器和客户端进行数据交互的一种形式https协议：(安全的超文本传输协议)第一章节：入门前准备1.为什么学爬虫（Why?）在数据量爆发式增长的互联网时代，网站与用户的沟通本质上是数据的交换：搜索引擎从数据库中提取搜索结果，将其展现在用户面前；这些数据如果得以分

2021-11-07 14:54:57 277

原创 2021-10-24

今天先看看，下一篇开始记录所学知识点***

2021-10-24 03:35:27 95

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人