简单静态网页爬取

一、静态网页爬取概述
1,静态网页介绍在这里插入图片描述
2.简单静态网页爬取在这里插入图片描述
二、使用urllib3实现HTTP请求
1.使用urllib3库实现
每一信息资源都有统一的且在网上唯一的地址,该地址就叫URL
在这里插入图片描述
在这里插入图片描述在这里插入图片描述

在这里插入图片描述使用浏览器为火狐和chrome浏览器,操作系统为“Windows NT 6.1; Win64; x64”
在这里插入图片描述

在这里插入图片描述在这里插入图片描述
在这里插入图片描述
在这里插入图片描述请求重试设置在这里插入图片描述在这里插入图片描述
生成完整HTTP请求

网页 User-Agent 的获取
1.网页内右击鼠标点检查
在这里插入图片描述
2.点Network
在这里插入图片描述

3.按 ctrl+R 刷新
4.点第一行,查看Headers,找到 User-Agent
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
三.使用requests库实现HTTP请求在这里插入图片描述
在这里插入图片描述在这里插入图片描述
在这里插入图片描述
在这里插入图片描述在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
四、谷歌开发者工具介绍

使用chrome开发者工具查看网页
在这里插入图片描述
也可以单击chrome浏览器右上角快捷菜单,如图所示,单击“更多工具”选项中的“开发者工具”选项,或使用快捷键组合Ctrl+Shift+I。在这里插入图片描述
chrome开发者工具目前包括了9个面板,界面如图所示。在这里插入图片描述
chrome开发者工具各面板功能如下。在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述网页源代码属于半结构化数据
它属于文本,文本是非结构化数据
但它可以通过对树状结构的索引找到对应元素所在的位置
在这里插入图片描述在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
五、使用正则表达式解析网页
在这里插入图片描述
例子
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

1.正则表达式的广义化
在这里插入图片描述在这里插入图片描述
在这里插入图片描述
在这里插入图片描述在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
2.使用正则表达式获取网页标题信息在这里插入图片描述
在这里插入图片描述
六、用Xpath解析网页
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
七、用 Beautiful Soup解析网页在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 3
    点赞
  • 27
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值