一:
1.cookiefrom http import cookieJar
2.声明MozillaCookiejar保存文件
3.利用request的HTTPCookie创建cookie
4.通过handler来构建operen
5.创建请求
6.cookie.save(ignore_discard=True,ignore_expires=True)
二:
定义正则 pattern=re.compile(r’a.c’)
匹配
res=re.match(pattern,“a9cdefg”)
匹配部分字符 pattern3=re.compile(r’a[a-f,A-F]]c’)
匹配数字
pattern4=re.compile(r’a\Dc’)
匹配空白 pattern5=re.compile(r’a\sc’)
匹配个数
pattern6=re.compile(r’abc*’)
from bs4 import Beautiful
指定请求 req=request.Request(" 网页链接)
指定下载器
opener=request.build_opener()
下载页面 resp=opener.open(req) print(resp.read().decode(“utf-8”))
使用beautfulsuop:查找标签,查找标签的属性 soup=BeautifulSoup(resp,“html.parser”,from_encoding=“utf-8”) links=soup.find_all(‘a’)
遍历links列表
三:
import re
#贪婪模式
rexg2=re.compile(r’\w*?’)
\d:代表数字[0-9]
\s:代表空格
\w:代表[Aa-Zz,0-9]
*:匹配一个字符0次或者无数次
+:匹配前一个字符1次或者无数次
?:匹配前一个字符0次或1次
{m,n}:匹配前一个字符m到n次
^:匹配字符串开头
$:匹配字符串末尾
\A:仅匹配字符串开头
\Z:仅匹配字符串末尾
\b:匹配\w和\W之间
|:代表左右表达式任意一个匹配 rexg6=re.compile(r’abc|efg’)
(P):分组
rexg10=re.compile(r’(?Pabc)