python数据爬虫技术与实战手册电子版_《python数据爬取技术与实战手册》

最新推荐文章于 2024-05-03 06:26:46 发布

weixin_39764603

最新推荐文章于 2024-05-03 06:26:46 发布

阅读量286

点赞数

文章标签： python数据爬虫技术与实战手册电子版

本文链接：https://blog.csdn.net/weixin_39764603/article/details/111539564

版权

1. HTML

HTML文件基本构成

//声明为html5文档

//语言属性为英文

//声明编码方式为 UTF-8

//页面标题

结束

//标题从

到

由大到小

//段落

属性

HTML标签可以在开始标签中添加属性，为HTML标签提供一些附加信息

比如说

//对齐方式

//id属性是标签在网页的唯一标识

有一些在网页中经常看到的元素，比如超链接，图像，表格，列表，表单等

1.超链接

一般用包含href属性的标签创建超链接，标签一般包含三个属性，

存放要跳转到的目标网址

决定点开链接后，目标网页在何处出现，默认为"_self"

Baidu

Baidu //新标签页

Baidu //当前页面

Baidu //父窗口？

2.图像

标签为 ,为空标签，即只有属性，没有闭合标签

一般有两个属性源地址(src)和替代文件(alt)

替代文本

alt属性的作用是在src无法加载时显示替代文本，有利于用户在网络不畅的情况下了解图片内容

3.表格

标签，首先用分行 (table row)，再用分格(table date)

1	2
3	4

效果

4.列表

分为两类，有序列表和无序列表 ,其中包含

(list item)

效果

有序列表 (ordered list)

效果

5.表单

一般用来做输入框，表单元素最重要的元素是，也是一个没有结束标签的空标签，主要用于收集用户输入

re库

python中正则表达式功能都集成在re模块中

match()和search()

match() 必须从头开始匹配

search() 全部

若匹配成功，返回一个对象，否则null，该对象有两个方法：

group()

groups()

若正则表达式中无分组，group()返回匹配结果，groups ()返回空元组

若正则表达式中有分组，group()和group(0)返回整个匹配结果，group(n)返回第n个分组的匹配结果,groups()返回元组，元素为每一组的匹配结果

findall() : 返回列表包含所有匹配的子串，如果包含分组，则只返回分组的那一部分，如果有多个分组，以列表嵌套元组返回

split() : 返回列表，表示字符串被某字符分解

sub() : sun(a,b,c) 用b替换c中的a，或者

import re

r = 'a'

r = re.compile(r)

a = ' a bcdefg'

print(r.sub('s', a))

这两种方法都是返回替换后的字符串，字符串本身不变

compile() : 将正则表达式字符串预编译，在数据较大情况下可加快速度

weixin_39764603

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

python数据爬虫技术与实战手册电子版_《python数据爬取 技术与实战手册》

到

由大到小

//对齐方式

python数据爬虫技术与实战手册电子版_《python数据爬取技术与实战手册》