爬虫_邝志康

一:
1.cookiefrom http import cookieJar
2.声明MozillaCookiejar保存文件
3.利用request的HTTPCookie创建cookie
4.通过handler来构建operen
5.创建请求
6.cookie.save(ignore_discard=True,ignore_expires=True)

二:

定义正则 pattern=re.compile(r’a.c’)
匹配
res=re.match(pattern,“a9cdefg”)
匹配部分字符 pattern3=re.compile(r’a[a-f,A-F]]c’)
匹配数字
pattern4=re.compile(r’a\Dc’)
匹配空白 pattern5=re.compile(r’a\sc’)
匹配个数
pattern6=re.compile(r’abc*’)
from bs4 import Beautiful
指定请求 req=request.Request(" 网页链接)
指定下载器
opener=request.build_opener()
下载页面 resp=opener.open(req) print(resp.read().decode(“utf-8”))

使用beautfulsuop:查找标签,查找标签的属性 soup=BeautifulSoup(resp,“html.parser”,from_encoding=“utf-8”) links=soup.find_all(‘a’)
遍历links列表

三:
import re
#贪婪模式
rexg2=re.compile(r’\w*?’)
\d:代表数字[0-9]
\s:代表空格
\w:代表[Aa-Zz,0-9]
*:匹配一个字符0次或者无数次
+:匹配前一个字符1次或者无数次
?:匹配前一个字符0次或1次
{m,n}:匹配前一个字符m到n次
^:匹配字符串开头
$:匹配字符串末尾
\A:仅匹配字符串开头
\Z:仅匹配字符串末尾
\b:匹配\w和\W之间
|:代表左右表达式任意一个匹配 rexg6=re.compile(r’abc|efg’)
(P):分组
rexg10=re.compile(r’(?Pabc)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值