爬虫小练习--爬取腾讯新闻首页并排序

最新推荐文章于 2023-07-04 13:25:29 发布

Joe_yoy

最新推荐文章于 2023-07-04 13:25:29 发布

阅读量961

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/YOU_hunter/article/details/82972940

版权

import requests
import re

url = 'https://news.qq.com/'

headers = {
'User-Agent':'Mozilla/5.0 (

Windows NT 10.0; WOW64) AppleWebKit/537.36 (

KHTML, like Gecko) Chrome/70.0.3538.9 Safari/537.36',

}

response = requests.get(url=url, headers=headers)

root_pattern = '<div class="Q-tpWrap">([\d\D]*?)</div>'
two_pattern = '<em class="f14 l24">([\d\D]*?)</em>'
three_pattern = '.html">(.*?)</a?>'

root_html = response.text
first_html = re.findall(root_pattern, root_html)
first_html = ''.join(first_html)

two_html = re.findall(two_pattern, first_html)
two_html = ''.join(two_html)

three_html = re.findall(three_pattern, two_html)

# a=1 调试用
# print(two_html)
# print(three_html)

# def my_news():
# for x in range(len(three_html)):
# print('%d:' % (x + 1) + three_html[x])

#写入新文件中
with open('tengxun.txt', 'w') as fb:
for x in range(len(three_html)):
fb.write('%d :' % (x+1)+three_html[x]+'\n')

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬虫小练习--爬取腾讯新闻首页并排序

import requestsimport reurl = 'https://news.qq.com/'headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.9 Safari/537.36'...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。