1. python爬虫--正则表达式1

本文介绍了Python爬虫的基础知识,包括理解爬虫、网页结构、获取网页代码、搜索代码、使用urllib下载文件以及设置浏览器头部与代理。通过实例展示了如何使用正则表达式进行基础匹配,并提供了相关量词的使用方法。
摘要由CSDN通过智能技术生成

1. python爬虫–正则表达式1

标签(空格分隔):4.5python爬虫


一 python爬虫

1. 理解爬虫

image_1cv8aprrm6h618k41sv91c6j1ru313.png-72.1kB

image_1cv8as3jvekk1teabqmp811ebj1g.png-189.8kB

2.怎么爬取
image_1cv8ats4do2o1f1717a264dheq1t.png-149.8kB

3. 基础概念
image_1cv8bkq92g49cm4ufp137k1c6k2a.png-99.7kB
image_1cv8blqbqs9m1j6t150qffl33i2n.png-184.3kB


#二.网页结构

1. html结构

image_1cv8bns6f19vsn8lcdacom18u34.png-77kB

image_1cv8bovl61tif1g9v11mkolg1b5n3h.png-150.6kB

<> 标签
单标签 <!doctype html >

双标签


image_1cv8btipu40non9ekbh7fjpr4o.png-13.6kB

  • 网页由标签组成;
  • 不同的标签有不同的内容;
  • 可以通过 tagname / id / class 找到某个标签;

image_1cv8d98nv16nfc99101t71a1eaj7j.png-46.8kB

image_1cv8dbb57b5g1cii5s7dohle680.png-45.4kB

2. html各标签名
image_1cv8bq8jehthl3g1uuo193o1g6p3u.png-186.3kB

3. html样式
image_1cv8br97us921vn918tamsq1qt04b.png-170.3kB


三 获取百度网页代码

1. 通常打开一个网址的步骤

</
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值