Python爬虫实战(基础篇)—14获取【巴黎圣母院新闻网(Notre Dame News)】新闻写入Word（附完整代码）

最新推荐文章于 2024-04-17 18:44:18 发布

一晌小贪欢

最新推荐文章于 2024-04-17 18:44:18 发布

阅读量1k

点赞数 11

分类专栏： Python爬虫文章标签： python 爬虫 word

本文链接：https://blog.csdn.net/weixin_42636075/article/details/136643021

版权

该教程介绍了如何使用Python爬取巴黎圣母院新闻网的最新新闻，通过GET请求和lxml+xpath解析HTML，提取新闻标题、发布时间、作者及内容，并将数据写入Word文档。

摘要由CSDN通过智能技术生成

专栏导读

🔥🔥本文已收录于《Python基础篇爬虫》

🉑🉑本专栏专门针对于有爬虫基础准备的一套基础教学，轻松掌握Python爬虫，欢迎各位同学订阅，专栏订阅地址：点我直达

🤞🤞此外如果您已工作，如需利用Python解决办公中常见的问题，欢迎订阅《Python办公自动化》专栏，订阅地址：点我直达
的
🔺🔺此外《Python30天从入门到熟练》专栏已上线，欢迎大家订阅，订阅地址：点我直达

背景

我是一个非常喜欢新闻的网友，特别喜欢的新闻网站是【巴黎圣母院新闻网】，我想获取每日的最新新闻，然后再写入Word中，方便我查看

1、网页分析+找到【Latest News】的URL

①、首先我们发现请求响应的返回在【Response】中；
②、我们发现网页中有【a】标签，存放着文章url链接
③、所以我们决定此次爬虫应该是用 lxml+xpath比较合适，说干就干！
④、请求方法是【GET】
⑤、请求参数是：无

在这里插入图片描述

2、测试请求

我们发现测试请求成功！

在这里插入图片描述

测试代码如下

# -*- coding: UTF-8 -*-
'''
@Project ：巴黎圣母院新闻网(Notre Dame News)
@File    ：main_.py
@IDE     ：PyCharm
@Author  ：一晌小贪欢（278865463@qq.com）
@Date    ：2024/3/12 10:12
'''
import json

import requests

url = 'https://news.nd.edu/'

headers = {
   
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36'}

res_data= requests.post(url=url, headers=headers)
# print(res_data.text)
res_data.encoding = "utf-8"
print(res_data.text

最低0.47元/天解锁文章

一晌小贪欢

关注

11
点赞
踩
8

收藏

觉得还不错? 一键收藏
打赏
1
评论
Python爬虫实战(基础篇)—14获取【巴黎圣母院新闻网(Notre Dame News)】新闻写入Word（附完整代码）

Python爬虫实战(基础篇)—14获取【巴黎圣母院新闻网(Notre Dame News)】新闻写入Word（附完整代码）利用lxml+xpath
复制链接

扫一扫