requests使用re爬取腾讯体育新闻

最新推荐文章于 2023-07-04 13:25:29 发布

Haohao+++

最新推荐文章于 2023-07-04 13:25:29 发布

阅读量1.1k

点赞数 6

分类专栏：爬虫文章标签： python 爬虫

本文链接：https://blog.csdn.net/qq_42025868/article/details/120767925

版权

爬虫专栏收录该内容

2 篇文章 0 订阅

订阅专栏

简介

爬取新闻标题

在这里插入图片描述

1. 安装

pip install request
pip install fake_useragent

2. 演示

进入网址，查看网页源代码
找到标题界面，根据li标签的特征使用re匹配
代码演示

import requests
from fake_useragent import UserAgent # 伪装请求头的库
import re

url = 'http://sports.qq.com/'   # 腾讯体育新闻网址
headers = {'User-Agent': UserAgent().chrome} 

response = requests.get(url, headers)
pattern = r'<li><a target="_blank" href="(.*?)" class="(.*?)">(.*?)</a></li>'
s = re.findall(pattern=pattern, string=response.text)

for content in s:
    print(content[2])

print('--------完成-------')

结果

优惠劵

Haohao+++

关注关注

6
点赞
踩
0

收藏

觉得还不错? 一键收藏
4
评论
requests使用re爬取腾讯体育新闻

简介爬取新闻标题1. 安装pip install requestpip install fake_useragent2. 演示进入网址，查看网页源代码找到标题界面，根据li标签的特征使用re匹配代码演示import requestsfrom fake_useragent import UserAgent # 伪装请求头的库import reurl = 'http://sports.qq.com/' # 腾讯体育新闻网址headers = {'User-A
复制链接

扫一扫