python学习笔记（2）-初识爬虫

最新推荐文章于 2024-08-09 08:31:03 发布

波澜不惊。

最新推荐文章于 2024-08-09 08:31:03 发布

阅读量155

点赞数

分类专栏： python学习文章标签： python

本文链接：https://blog.csdn.net/rabbit_bear/article/details/105523825

版权

python学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

什么是爬虫？

数据抓取，从互联网抓取想要的数据、数据爬虫、网络蜘蛛。

web与http

web指的网站，给用户展现数据的地方
http指的是网络协议，http&https
url 统一资源定位符

例如 https://www.baidu.com/s?ie=utf-8&wd=%E5%B0%8F%E5%85%94%E5%AD%90
（1）https 协议
（2）www.baidu.com 域名
（3）www.baidu.com/s host
（4）?ie=utf-8&wd=%E5%B0%8F%E5%85%94%E5%AD%90 参数

爬虫的基本步骤

明确需求
根据需求，寻找对应的web网址（url)
用python程序模拟浏览器去访问对应的网址（url)，需要用到python的第三方请求库（request）
获取服务器返回的源代码（html、json、xml)
根据返回的源代码提取需要的数据（RE正则、xpath等）
把数据整理存储

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

波澜不惊。

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python学习笔记（2）-初识爬虫

什么是爬虫？数据抓取，从互联网抓取想要的数据、数据爬虫、网络蜘蛛。web与httpweb指的网站，给用户展现数据的地方http指的是网络协议，http&httpsurl 统一资源定位符例如 https://www.baidu.com/s?ie=utf-8&wd=%E5%B0%8F%E5%85%94%E5%AD%90（1）https 协议（2）www.b...
复制链接

扫一扫