专栏导读
🔥🔥本文已收录于《Python基础篇爬虫》
🉑🉑本专栏专门针对于有爬虫基础
准备的一套基础教学,轻松掌握Python爬虫,欢迎各位同学订阅,专栏订阅地址:点我直达
🤞🤞此外如果您已工作,如需利用Python解决办公中常见的问题,欢迎订阅《Python办公自动化》专栏
,订阅地址:点我直达
的
🔺🔺此外《Python30天从入门到熟练》专栏已上线,欢迎大家订阅,订阅地址:点我直达
背景
-
我是一个非常喜欢新闻的网友,特别喜欢的新闻网站是【巴黎圣母院新闻网】,我想获取每日的最新新闻,然后再写入Word中,方便我查看
1、网页分析+找到【Latest News】的URL
-
①、首先我们发现请求响应的返回在【Response】中;
-
②、我们发现网页中有【a】标签,存放着文章url链接
-
③、所以我们决定此次爬虫应该是用 lxml+xpath比较合适,说干就干!
-
④、请求方法是【GET】
-
⑤、请求参数是:无
2、测试请求
我们发现测试请求成功!
测试代码如下
'''
@Project :巴黎圣母院新闻网(Notre Dame News)
@File :main_.py
@IDE :PyCharm
@Author :一晌小贪欢(278865463@qq.com)
@Date :2024/3/12 10:12
'''
import json
import requests
url = 'https://news.nd.edu/'
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36'}
res_data= requests.post(url=url, headers=headers)
res_data.encoding = "utf-8"
print(res_data.text