爬虫_邝志康

最新推荐文章于 2023-07-07 01:24:32 发布

残寂iي

最新推荐文章于 2023-07-07 01:24:32 发布

阅读量45

点赞数

分类专栏：笔记

本文链接：https://blog.csdn.net/qq_68066934/article/details/123466927

版权

笔记专栏收录该内容

7 篇文章 0 订阅

订阅专栏

一：
1.cookiefrom http import cookieJar
2.声明MozillaCookiejar保存文件
3.利用request的HTTPCookie创建cookie
4.通过handler来构建operen
5.创建请求
6.cookie.save(ignore_discard=True,ignore_expires=True)

二：

定义正则 pattern=re.compile(r’a.c’)
匹配
res=re.match(pattern,“a9cdefg”)
匹配部分字符 pattern3=re.compile(r’a[a-f,A-F]]c’)
匹配数字
pattern4=re.compile(r’a\Dc’)
匹配空白 pattern5=re.compile(r’a\sc’)
匹配个数
pattern6=re.compile(r’abc*’）
from bs4 import Beautiful
指定请求 req=request.Request(" 网页链接)
指定下载器
opener=request.build_opener()
下载页面 resp=opener.open(req) print(resp.read().decode(“utf-8”))

使用beautfulsuop:查找标签，查找标签的属性 soup=BeautifulSoup(resp,“html.parser”,from_encoding=“utf-8”) links=soup.find_all(‘a’)
遍历links列表

三：
import re
#贪婪模式
rexg2=re.compile(r’\w*?’)
\d:代表数字[0-9]
\s:代表空格
\w:代表[Aa-Zz,0-9]
*:匹配一个字符0次或者无数次
+：匹配前一个字符1次或者无数次
?:匹配前一个字符0次或1次
{m,n}:匹配前一个字符m到n次
^:匹配字符串开头
$:匹配字符串末尾
\A:仅匹配字符串开头
\Z:仅匹配字符串末尾
\b:匹配\w和\W之间
|：代表左右表达式任意一个匹配 rexg6=re.compile(r’abc|efg’)
（P）:分组
rexg10=re.compile(r’(?Pabc)

残寂iي

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬虫_邝志康

一：1.cookiefrom http import cookieJar2.声明MozillaCookiejar保存文件3.利用request的HTTPCookie创建cookie4.通过handler来构建operen5.创建请求6.cookie.save(ignore_discard=True,ignore_expires=True)二：定义正则 pattern=re.compile(r’a.c’)匹配res=re.match(pattern,“a9cdefg”)匹配部分字符 pa
复制链接

扫一扫