python每隔一段时间保存网页内容_Python入门 网络爬虫

什么是网络爬虫?我们写一个程序,让它自动抓取某网页中的信息;如果其中包含其它url,就继续抓取;这样不停的迭代…… 就顺藤摸瓜获得了所有相关网页中的有用信息。 在这个过程中,url就像蜘蛛网的丝,抓取程序就像蜘蛛在爬,所以它有了形象的名字:网络爬虫。

相关python库

①获取网页需要 发起web请求,python提供了   requests②阅读网页需要 进行html解析,python提供了  beautifulsoup4

pip install requests beautifulsoup4

安装网络爬虫用到的库

1.发起web请求

发起请求,得到响应。我们首先要清楚,请求要告诉服务器哪些信息?在响应中能获得哪些信息?在http协议的 请求/响应 格式中, 它们各自包含了3部分内容(且一一对应):①请求行 / 状态行:主要是 请求地址和响应状态②请求头 / 响应头:描述本次 请求/响应 的元信息③请求参数 / 响应正文:请求数据和网页内容除此之外,还可能用到cookie。如果目标网站需要登录,就得用浏览器工具,取出 cookie里的sessionId,然后在编码时加入请求。下面了解一下requests如何发起请求,获得响应:
import requests# 发起请求:get/post/put/delete/head/options请求参数 = {
    'key': 'value'}请求头 = {
        'content-type':    'application/json',    'User-Agent':    'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:22.0) Gecko/20100101 Firefox/22.0'}r = requests.get('https://woo
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值