2021_11-17_自学笔记_异常_页面结构_爬虫概念

异常的格式

try:

可能出现的异常

except 异常的内省

友好的提示

try:
fp = open(‘1.txt’,‘r’)
fp.read()
except FileNotFoundError:
print(‘洗脚城正在装修,请下次再来’)

页面结构的一些常用标签

Title table:表格;tr:行;td:列
姓名年龄性别
张三18
ul li:无需列表,爬虫的使用场景非常多
  • 大头儿子
  • 大头儿子
ol li:有序列表
  1. 起床
  2. 洗脸
a herf 超链

爬虫的概念,核心及用途

反扒手段:用户代理UA:use agent;代理ip;更换

验证码访问;打码平台,云打码

动态加载页面;网站返回js干扰数据,非真实数据;使用selenium驱动真实的浏览器发送请求

加密;分析js代码

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值