通用爬虫案例4：虎扑新闻

最新推荐文章于 2024-07-28 20:52:46 发布

彡倾灬染|

最新推荐文章于 2024-07-28 20:52:46 发布

阅读量283

点赞数

分类专栏：爬虫案例文章标签： python 爬虫

本文链接：https://blog.csdn.net/qq_45830025/article/details/107531639

版权

爬虫案例专栏收录该内容

9 篇文章 1 订阅

订阅专栏

需求：
将虎扑新闻前五页内容保存到本地

1.导入requests模块

import  requests

定义请求头

headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36'
}

分析：分页操作：核心->找规律

第一页URL：https://voice.hupu.com/
第二页URL：https://voice.hupu.com/news?category=all&page=2
第三页URL：https://voice.hupu.com/news?category=all&page=3
第四页URL：https://voice.hupu.com/news?category=all&page=4
第五页URL：https://voice.hupu.com/news?category=all&page=5

定义基础url

base_url = 'https://voice.hupu.com/news'

定义参数：

params = {
    'categor':'all'
}

#使用循环动态改变page参数的值

for i in range(1,6):
    params['page'] = i

2.发起请求，接收响应

response = requests.get(url=base_url,params=params,headers = headers)
# print(response.url)

URL:统一资源定位符
一个URL只能对应一个页面，但是一个页面可以有多个URL对应

保存文件

with open('hupu{}.html'.format(i),'w',encoding='utf-8') as fp:  # 分页
    fp.write(response.text)

最终代码：

import  requests

headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36'
}

base_url = 'https://voice.hupu.com/news'

params = {
    'categor':'all'
}

for i in range(1,6):
    params['page'] = i
    response = requests.get(url=base_url,params=params,headers = headers)
    # print(response.url)
    with open('hupu{}.html'.format(i),'w',encoding='utf-8') as fp:  # 分页
        fp.write(response.text)

彡倾灬染|

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
通用爬虫案例4：虎扑新闻

需求：将虎扑新闻前五页内容保存到本地1.导入requests模块import requests定义请求头headers = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36'}分析：分页操作：核心->找规律第一页URL：https://voice.hupu.com/
复制链接

扫一扫

专栏目录