- 博客(4)
- 收藏
- 关注
原创 Python爬虫UA伪装(简易网页采集器)
爬虫实战requests实现简易网页采集器UA伪装UAUA伪装 requests实现简易网页采集器 目标:实现输入关键字能爬取某一浏览器页面 关键步骤: 指定url,词条封装 发起请求,get方法返回响应对象 拼接参数,获取响应数据 存储数据 代码: import requests if __name__ == "__main__": # url='https://www.sogou.com/web?query=菜菜' url = 'https://www.sogou.com/web'
2021-11-08 13:54:08 1413
原创 Python爬虫
自学爬虫第二章:requests模块 注意:此文使用pycharm软件进行编辑 1.requests介绍 requests模块:python中原生的一款基于网络请求的模块 作用:模拟浏览器发请求 优点:功能强大,简单便捷,效率高 2.request使用编码流程 指定url 发起请求,返回响应对象 获取响应数据 存储数据 3.实战案例:搜狗页面爬取 1.环境安装 在控制台输入以下命令: pip install requests 或者在本地安装,打开File–Settings-Project:Arit
2021-11-07 16:45:22 410
原创 Python爬虫
菜菜自学爬虫第一章节:入门前准备1.为什么学爬虫(Why?)2.什么是爬虫(What?)3.爬虫的来源与价值企业的数据来源爬虫的价值4.爬虫道德(如何避免进局子)5.爬虫在使用场景中的分类6.爬虫机制7. http/https协议http协议:服务器和客户端进行数据交互的一种形式https协议:(安全的超文本传输协议) 第一章节:入门前准备 1.为什么学爬虫(Why?) 在数据量爆发式增长的互联网时代,网站与用户的沟通本质上是数据的交换:搜索引擎从数据库中提取搜索结果,将其展现在用户面前;这些数据如果得以分
2021-11-07 14:54:57 156
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人