爬取大西洋月刊每日新闻

最新推荐文章于 2023-03-02 17:02:00 发布

lzw2016

最新推荐文章于 2023-03-02 17:02:00 发布

阅读量1.2k

点赞数

分类专栏： Python学习文章标签：爬虫 lxml+requests 大西洋月刊

本文链接：https://blog.csdn.net/lzw2016/article/details/82950192

版权

本文介绍了如何使用lxml和XPath爬取及解析《大西洋月刊》的每日新闻，包括获取文章标题、时间、导读信息，并将数据保存为Markdown文件。过程中还探讨了XPath的选择与使用，以及遇到的不同文章结构的处理方法。

摘要由CSDN通过智能技术生成

导读

最近学英语中，想借助原汁原味的英文素材，浏览了下《经济学人》、《纽约时报》、《大西洋月刊》等，发现《大西洋月刊》（The Atlantic）比较合胃口，所以就写了个爬虫爬取每日新闻，保存markdown文件，便于推送到博客上。

文章收纳：

问题：

正则表达式忘得差不多了
scrapy使用也是，今晚复习了下如何爬取网页，保存数据、配置还没看

import requests
from lxml import etree
import re

# url = 'https://www.theatlantic.com/science/archive/2018/10/horsepox-smallpox-virus-science-ethics-debate/572200/'

url_root = 'https://www.theatlantic.com/latest/'

headers = {
   
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 SE 2.X MetaSr 1.0'
}

def get_urlLists(html):
    selector = etree.HTML(html)
    url_lists = selector.xpath('//ul[@class="river"]/li/a/@href')

    url_lists = ['https://www.theatlantic.com{}'.format(url) for url in url_lists]
    return url_lists

root_html = requests.get(url_root,headers=headers).text
url_lists = get_urlLists(root_html)

len(url_lists)

lxml解析网页的方式

解析str
- etree.HTML(str)
解析html文件
- etree.parse(‘html文件路径’,etree.HTMLparser())

def get_MarkDown_by_url(url):
    html = requests.get(url,headers=headers)
    if html.status_code==200

最低0.47元/天解锁文章

lzw2016

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录