利用python爬虫(part1)--urllib.request模块

学习笔记



网络爬虫概述

定义

其实就是用Python程序模仿人点击浏览器并访问网站,而且模仿的越逼真越好。

爬虫分类

①通用网络爬虫(搜索引擎使用,需要遵守robots协议)

robots协议 :网站通过robots协议,告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。

比如:www.csdn.net/robots.txt

根据CSDN的robots协议,对于所有的爬虫用户,Disallow后的内容是不可以爬取的。

②聚焦网络爬虫 :自己写的爬虫程序(可以不遵守robots协议)

爬取数据步骤

①确定需要爬取的URL地址

②由请求模块向URL地址发出请求,并得到网站的响应

③从响应内容中提取所需数据

- 提取所需数据,并保存

- 页面中有其他需要继续跟进的URL地址,回到第2步发起请求,如此循环

爬虫请求模块

  • 模块

                
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

GUI Research Group

谢谢支持!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值