利用python爬虫结合前端技能实现经济学人(The Economist)阅时即查APP(010)

本文介绍了如何利用Python爬虫抓取经济学人网站的最新文章列表,将其归档到本地,并详细阐述了爬取过程、数据结构以及归档目录和保存的JSON文件结构。下篇将探讨文章中单词的去重方法。
摘要由CSDN通过智能技术生成

010、python爬取经济学人最新列表文章,归档为本地文件

首先回顾一下获取首页最新文章列表[[a,title],…]:

def getPaperList():
    url = 'https://economist.com'
    req = urllib.request.Request(url=url,headers=headers, method='GET')
    response = urllib.request.urlopen(req)
    html = response.read()
    selector = etree.HTML(html.decode('utf-8'))
    goodpath='/html/body/div[1]/div[1]/div[1]/div[2]/div[1]/main[1]/div[1]/div[1]/div[1]/div[3]/ul[1]/li'
    art=selector.xpath(goodpath)
    awithtext = []
    try:
        for li in art:
            ap = li.xpath('article[1]/a[1]/div[1]/h3[1]/text()')
            a = li.xpath('article[1]/a[1]/@href')
            awithtext.append([a[0],ap[0]])
    except Exception as err:
        print(err,'getMain')
    finally:
        return awithtext

1、接着分析要爬取的文章的html结构

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值