day19作业

最新推荐文章于 2024-10-14 09:08:48 发布

py_xiaobai_

最新推荐文章于 2024-10-14 09:08:48 发布

阅读量159

点赞数

文章标签： python

本文链接：https://blog.csdn.net/py_xiaobai_/article/details/114269815

版权

爬取搜狐主页标题和对应网址

import re
import requests
resp = requests.get(
    url='https://www.sohu.com/',
    headers={'User-Agent': 'Mozilla/5.0 (Windows '
                           'NT 10.0; Win64; x64) '
                           'AppleWebKit/537.36 (KHTML, like Gecko)'
                           ' Chrome/88.0.4324.150 Safari/537.36'
             }
)
# print(resp.text)
re_str = re.compile(r'\<a.+?href="\/?\/?(.+?)".+?title=[\'\"](.+?)[\'\"]\>')
result = re_str.findall(resp.text)
for x in result:
    print(x[1])
    print(x[0])