爬虫小练习--爬取腾讯新闻首页并排序

import requests
import re

url = 'https://news.qq.com/'

headers = {
    'User-Agent':'Mozilla/5.0 (

Windows NT 10.0; WOW64) AppleWebKit/537.36 (

KHTML, like Gecko) Chrome/70.0.3538.9 Safari/537.36',

}

response = requests.get(url=url, headers=headers)

root_pattern = '<div class="Q-tpWrap">([\d\D]*?)</div>'
two_pattern = '<em class="f14 l24">([\d\D]*?)</em>'
three_pattern = '.html">(.*?)</a?>'


root_html = response.text
first_html = re.findall(root_pattern, root_html)
first_html = ''.join(first_html)

two_html = re.findall(two_pattern, first_html)
two_html = ''.join(two_html)

three_html = re.findall(three_pattern, two_html)


# a=1     调试用
# print(two_html)
# print(three_html)

# def my_news():
#     for x in range(len(three_html)):
#         print('%d:' % (x + 1) + three_html[x])

#写入新文件中
with open('tengxun.txt', 'w') as fb:
    for x in range(len(three_html)):
        fb.write('%d :' % (x+1)+three_html[x]+'\n')


 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值