Python爬虫学习笔记2

最新推荐文章于 2024-08-09 17:34:06 发布

小花同学啦啦啦

最新推荐文章于 2024-08-09 17:34:06 发布

阅读量75

点赞数 1

分类专栏： Python爬虫文章标签： python 正则表达式爬虫

本文链接：https://blog.csdn.net/qq_51557623/article/details/120651407

版权

4 篇文章 1 订阅

订阅专栏

在这里插入图片描述

1.正则表达式

1.1常用的匹配规则
在这里插入图片描述

1.2常用的几个方法

方法	match	search	findall	sub	compile
功能	从字符串起始位置匹配正则表达式	扫描整个字符串，返回第一个成功匹配的结果	扫描整个字符串，返回匹配正则表达式的所有内容	修改文本	将正则字符串编译成正则表达式对象
参数	第一个传入正则表达式，第二个传入要匹配的字符串	同match	同match	第一个需要修改字符串的正则表达式，第二个替换成的字符串，第三个是原字符串

注：
（1）re.s参数在代码有换行时使用

2.1 lxml库
常用规则：
在这里插入图片描述

2.2 Beautiful Soup 库
(1)节点选择器
使用方法：.节点.属性

常用的属性：

（2）方法选择器
find_all(name,attrs,recursive,text,kwargs)
find()

区别：前者返回所有匹配元素组成的列表；后者只返回第一个匹配的元素

（3）CSS选择器
方法：select()

关注

专栏目录