Python爬虫的一些常用库(解析1)

冷巷(✘_✘)

已于 2022-01-29 16:33:04 修改

阅读量774

点赞数 1

分类专栏： python 文章标签： python 爬虫开发语言

于 2022-01-29 12:18:32 首次发布

本文链接：https://blog.csdn.net/m0_66060262/article/details/122740100

版权

python 专栏收录该内容

26 篇文章 3 订阅

订阅专栏

今天说一下re，也是正则表达式。

安装

语法

语法
. (英文模式下的句号)	在默认模式，匹配除了换行的任意字符。如果指定了标签 DOTALL ，它将匹配包括换行符的任意字符。
^	匹配字符串的开头，并且在 MULTILINE 模式也匹配换行后的首个符号。
$	匹配字符串尾或者在字符串尾的换行符的前一个字符，在 MULTILINE 模式下也会匹配换行符之前的文本。 `foo` 匹配 'foo' 和 'foobar'，但正则表达式 `foo$` 只匹配 'foo'。更有趣的是，在 `'foo1\nfoo2\n'` 中搜索 `foo.$`，通常匹配 'foo2'，但在 MULTILINE 模式下可以匹配到 'foo1'；在 `'foo\n'` 中搜索 `$` 会找到两个（空的）匹配：一个在换行符之前，一个在字符串的末尾。
*``**	对它前面的正则式匹配0到任意次重复，尽量多的匹配字符串。 `ab*` 会匹配 `'a'`，`'ab'`，或者 `'a'` 后面跟随任意个 `'b'`。
+	对它前面的正则式匹配1到任意次重复。 `ab+` 会匹配 `'a'` 后面跟随1个以上到任意个 `'b'`，它不会匹配 `'a'`。
?	对它前面的正则式匹配0到1次重复。 `ab?` 会匹配 `'a'` 或者 `'ab'`。
*`?`, `+?`, `??`**	`''`, `'+'`，和 `'?'` 修饰符都是贪婪的；它们在字符串进行尽可能多的匹配。有时候并不需要这种行为。如果正则式 `<.>` 希望找到 `'<a> b <c>'`，它将会匹配整个字符串，而不仅是 `'<a>'`。在修饰符之后添加 `?` 将使样式以非贪婪`方式或者 :dfn:`最小方式进行匹配；尽量少的字符将会被匹配。使用正则式 `<.*?>` 将会仅仅匹配 `'<a>'`。
{m}	对其之前的正则式指定匹配 m 个重复；少于 m 的话就会导致匹配失败。比如， `a{6}` 将匹配6个 `'a'` , 但是不能是5个。
{m,n}	对正则式进行 m 到 n 次匹配，在 m 和 n 之间取尽量多。比如，`a{3,5}` 将匹配 3 到 5个 `'a'`。忽略 m 意为指定下界为0，忽略 n 指定上界为无限次。比如 `a{4,}b` 将匹配 `'aaaab'` 或者1000个 `'a'` 尾随一个 `'b'`，但不能匹配 `'aaab'`。逗号不能省略，否则无法辨别修饰符应该忽略哪个边界。
{m,n}?	前一个修饰符的非贪婪模式，只匹配尽量少的字符次数。比如，对于 `'aaaaaa'`， `a{3,5}` 匹配 5个 `'a'` ，而 `a{3,5}?` 只匹配3个 `'a'`。
\	转义特殊字符（允许你匹配 `'*'`, `'?'`, 或者此类其他），或者表示一个特殊序列。
[ ]	用于表示一个字符集合

模块内容

`re.compile`(pattern, flags=0)	将正则表达式的样式编译为一个正则表达式对象（正则对象），可以用于匹配，通过这个对象的方法 match(), search() 以及其他如下描述。这个表达式的行为可以通过指定标记的值来改变。值可以是以下任意变量，可以通过位的OR操作来结合（ `\|` 操作符）。
`re.A`
`re.ASCII`	让 `\w`, `\W`, `\b`, `\B`, `\d`, `\D`, `\s` 和 `\S` 只匹配ASCII，而不是Unicode。这只对Unicode样式有效，会被byte样式忽略。相当于前面语法中的内联标志 `(?a)` 。
`re.DEBUG`	显示编译时的debug信息，没有内联标记。
re.I
`re.IGNORECASE`	进行忽略大小写匹配；表达式如 `[A-Z]` 也会匹配小写字符。Unicode匹配（比如 `Ü` 匹配 `ü`）同样有用，除非设置了 re.ASCII 标记来禁用非ASCII匹配。当前语言区域不会改变这个标记，除非设置了 re.LOCALE 标记。这个相当于内联标记 `(?i)` 。
`re.L`
`re.LOCALE`	由当前语言区域决定 `\w`, `\W`, `\b`, `\B` 和大小写敏感匹配。这个标记只能对byte样式有效。这个标记不推荐使用，因为语言区域机制很不可靠，它一次只能处理一个 "习惯”，而且只对8位字节有效。Unicode匹配在Python 3 里默认启用，并可以处理不同语言。这个对应内联标记 `(?L)` 。
`re.M`
`re.MULTILINE`	设置以后，样式字符 `'^'` 匹配字符串的开始，和每一行的开始（换行符后面紧跟的符号）；样式字符 `'$'` 匹配字符串尾，和每一行的结尾（换行符前面那个符号）。默认情况下，`’^’` 匹配字符串头，`'$'` 匹配字符串尾。对应内联标记 `(?m)` 。
`re.S`
`re.DOTALL`	让 `'.'` 特殊字符匹配任何字符，包括换行符；如果没有这个标记，`'.'` 就匹配除了换行符的其他任意字符。对应内联标记 `(?s)` 。
`re.X`
`re.VERBOSE`	这个标记允许你编写更具可读性更友好的正则表达式。通过分段和添加注释。空白符号会被忽略，除非在一个字符集合当中或者由反斜杠转义，或者在 `*?`, `(?:` or `(?P<…>` 分组之内。当一个行内有 `#` 不在字符集和转义序列，那么它之后的所有字符都是注释。
`re.search`(pattern, string, flags=0)	扫描整个字符串找到匹配样式的第一个位置，并返回一个相应的匹配对象。如果没有匹配，就返回一个 `None` ；注意这和找到一个零长度匹配是不同的。
`re.match`(pattern, string, flags=0)	如果 string 开始的0或者多个字符匹配到了正则表达式样式，就返回一个相应的匹配对象。如果没有匹配，就返回 `None` ；注意它跟零长度匹配是不同的。注意即便是 MULTILINE 多行模式， re.match() 也只匹配字符串的开始位置，而不匹配每行开始。如果你想定位 string 的任何位置，使用 search() 来替代（也可参考 search() vs. match() ）
`re.fullmatch`(pattern, string, flags=0)	如果整个 string 匹配到正则表达式样式，就返回一个相应的匹配对象。否则就返回一个 `None` ；注意这跟零长度匹配是不同的。
`re.split`(pattern, string, maxsplit=0, flags=0)	用 pattern 分开 string 。如果在 pattern 中捕获到括号，那么所有的组里的文字也会包含在列表里。如果 maxsplit 非零，最多进行 maxsplit 次分隔，剩下的字符全部返回到列表的最后一个元素。
`re.findall`(pattern, string, flags=0)	对 string 返回一个不重复的 pattern 的匹配列表， string 从左到右进行扫描，匹配按找到的顺序返回。如果样式里存在一到多个组，就返回一个组合列表；就是一个元组的列表（如果样式里有超过一个组合的话）。空匹配也会包含在结果里。
`re.finditer`(pattern, string, flags=0)	pattern 在 string 里所有的非重复匹配，返回为一个迭代器 iterator 保存了匹配对象。 string 从左到右扫描，匹配按顺序排列。空匹配也包含在结果里。
`re.sub`(pattern, repl, string, count=0, flags=0)	返回通过使用 repl 替换在 string 最左边非重叠出现的 pattern 而获得的字符串。如果样式没有找到，则不加改变地返回 string。 repl 可以是字符串或函数；如为字符串，则其中任何反斜杠转义序列都会被处理。也就是说，`\n` 会被转换为一个换行符，`\r` 会被转换为一个回车附，依此类推。未知的 ASCII 字符转义序列保留在未来使用，会被当作错误来处理。其他未知转义序列例如 `\&` 会保持原样。向后引用像是 `\6` 会用样式中第 6 组所匹配到的子字符串来替换。
`re.subn`(pattern, repl, string, count=0, flags=0)	行为与 sub() 相同，但是返回一个元组 `(字符串, 替换次数)`.
`re.escape`(pattern)	转义 pattern 中的特殊字符。如果你想对任意可能包含正则表达式元字符的文本字符串进行匹配，它就是有用的。
`re.purge`()	清除正则表达式的缓存。
exception `re.error`(msg, pattern=None, pos=None)	`raise` 一个例外。当传递到函数的字符串不是一个有效正则表达式的时候（比如，包含一个不匹配的括号）或者其他错误在编译时或匹配时产生。如果字符串不包含样式匹配，是不会被视为错误的。错误实例有以下附加属性： `msg` 未格式化的错误消息。 `pattern` 正则表达式的模式串。 `pos` 编译失败的 pattern 的位置索引（可以是 `None` ）。 `lineno` 对应 pos (可以是 `None`) 的行号。 `colno` 对应 pos (可以是 `None`) 的列号。

对以上总结：

确实爬虫用不到这么多的，只是我把我了解的和以前听课记下的写了上来。

使用方法

一、

list = re.findall('正则表达式',html,re.S)

二、

en = re.compile('正则表达式',re.S)
youxi = en.findall(html)

PS：用findall()得到的结果一定是列表，re.S作用是使re元字符.可匹配\n在内的所以字符

.	任意一个字符（不包括\n）
\d	一个数字
\s	空白字符
\S	非空白字符
[]	包含[]内容
*	出现0次或多次
+	出现1次或多次

贪婪模式非贪婪模式
在匹配成功的前提下尽可能多的匹配	在匹配成功的前提下尽可能少的匹配
*. .+ .?**	*.? .+? .??**

其实这些上面都有，在这里只是总结一下最常用的。

贪婪模式：

非贪婪模式：

仔细观察一下的话会发现，贪婪模式会把他的标签也给薅下来，非贪婪只薅他里面的东西。个人感觉非贪婪模式比贪婪模式看着舒服一点。

总结

1、在网页中，想要爬取什么内容，就在正则此位置加()

2、匹配时先按整体正则匹配，然后再提取分组()中的内容

3、如果有2个及以上分组()，结果中以元组形式显示[(),(),()]

冷巷(✘_✘)

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
Python爬虫的一些常用库(解析1)

今天说一下re，也是正则表达式。安装语法语法 . (英文模式下的句号) 在默认模式，匹配除了换行的任意字符。如果指定了标签DOTALL，它将匹配包括换行符的任意字符。 ^ 匹配字符串的开头，并且在MULTILINE模式也匹配换行后的首个符号。 $ 匹配字符串尾或者在字符串尾的换行符的前一个字符，在MULTILINE模式下也会匹配换行符之前的文本。foo匹配 'foo' 和 'foobar'，但正则表达式foo$...
复制链接

扫一扫