学习爬虫第二天

最新推荐文章于 2024-07-12 16:42:46 发布

lin__zs

最新推荐文章于 2024-07-12 16:42:46 发布

阅读量123

点赞数

文章标签：爬虫 python html

本文链接：https://blog.csdn.net/lin__zs/article/details/122500671

版权

import requests

url="https://movie.douban.com/j/chart/top_list"
#重新封装参数
param={
    "type":"24",
    "interval_id":"100:90",
    "action":" ",
    "start":20,
   "limit":20,
}
headers={"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:96.0) Gecko/20100101 Firefox/96.0"
}
resp=requests.get(url=url,params=param,headers=headers)
print(resp.json())
resp.close()

import re
#findall:匹配字符串中所有符合正则的内容
list=re.findall(r"\d+","我的qq号是166090685475他的qq号码是18964762492")
print(list)
#效率不高
#迭代器效率高
#finditer 返回迭代器  取出用group
gg=re.finditer(r"\d+","我的qq号是1660906285475他的qq号码是18964762492")
for i in gg:
    print(i.group())
#search返回的结果是match对象，拿数据用group
ff=re.search(r"\d+","我的qq号是166090642575他的qq号码是18964762492")
print(ff.group())#找到一个结果就返回

re.match(r"\d+","我的qq号是16609256106475他的qq号码是18964762492")
#match从头开始匹配

#预加载正则表达式
obj=re.compile(r"\d+")

ret=obj.finditer(r"\d+","我的qq号是166090146475他的qq号码是18964762492")
ret1=obj.findall(r"\d+","我的qq号是16609060256475他的qq号码是18964762492")
#?P<分组名字>正则，可以单独从正则匹配的内容中进一步提取内容