使用xpath的@class=""以及@href等属性爬取最新经济学人blogs、news. etc

最新推荐文章于 2023-09-15 09:39:29 发布

「已注销」

最新推荐文章于 2023-09-15 09:39:29 发布

阅读量3.8k

点赞数

分类专栏： python python爬虫文章标签：经济学人 xpath python爬虫 economist etree

本文链接：https://blog.csdn.net/Lockey23/article/details/80202143

版权

本文介绍如何利用Python爬虫结合XPath语法，从经济学人网站抓取最新博客和新闻的链接，进一步获取文章标题、描述和正文。通过三个步骤实现整个爬取过程，包括获取最新文章列表、遍历链接提取详情，并最终运行爬虫程序。

摘要由CSDN通过智能技术生成

先把图上了：
这里写图片描述

1、首先从最新文章列表页爬取最新文章的链接

import json
import re
import urllib.request
from lxml import etree
import random
import requests
import time
import os
paperRecords = {}

with open('spiRecords.json','r') as fel:
    paperRecords = json.load(fel)

try:
    lastLst = paperRecords['lastLst']
except Exception as err:
    lastLst = []
dateStr = '2018-05-02'
#dateStr = time.strftime('%Y-%m-%d',time.localtime(time.time()))
toYear,toMonth,toDay = list(map(int,dateStr.split('-')))
strY = 'a' + str(toYear)
strM = 'a' + str(toMonth)
strD = 'a' + str(toDay)
try:
    if paperRecords[strY]:
        pass