Python网络爬虫爬取新浪新闻

最新推荐文章于 2024-05-20 21:35:11 发布

Lambyte

最新推荐文章于 2024-05-20 21:35:11 发布

阅读量2.3k

点赞数 2

文章标签：爬虫新闻

本文链接：https://blog.csdn.net/qq_38253732/article/details/89195598

版权

本文介绍了一位作者根据邱老师的网络爬虫实战教程，编写了一个爬取新浪新闻的Python爬虫。爬取内容包括新闻标题、来源URL、发布时间和正文，并对错误网页进行跳过处理。通过调整主程序中的范围参数，可控制爬取新闻的数量，例如range(10)可获取200条新闻。爬取的数据以.xlsx格式保存，作者在2019.4.10成功抓取了9980条新闻，用时约二十余分钟。

摘要由CSDN通过智能技术生成

笔者最近由于需要研究互联网新闻，于是基于邱老师的网络爬虫实战，写了一个爬取新浪新闻的爬虫，爬取的信息有：

新闻标题
来源url
发布时间
正文
编辑者

与邱老师的爬虫相比有以下几点不同：

没有爬取新闻评论数目
对错误网页进行跳过处理
适应当前网页标签

可以通过修改main下的range(a,b)范围来控制爬取新闻的条数。新浪网每页20条新闻，也就是说range(10)可以爬取10 * 20 = 200 条新闻。爬取的信息最后以.xlsx文件形式输出。这是一个简单的框架。笔者已于2019.4.10爬取了9980条新闻数据，耗时二十余分钟，供参考。

import requests
from bs4 import BeautifulSoup
from datetime import datetime
import json
import pandas

news_url = 'https://news.sina.com.cn/c/2019-04-09/doc-ihvhiewr4450873.shtml'
url = 'https://feed.sina.com.cn/api/roll/get?pageid=121&lid=1356&num=20&versionNumber=1.2.4&page={}&encode

最低0.47元/天解锁文章

Lambyte

关注

2
点赞
踩
21

收藏

觉得还不错? 一键收藏
5
评论
Python网络爬虫爬取新浪新闻

笔者最近由于需要研究互联网新闻，于是基于邱老师的网络爬虫实战，写了一个爬取新浪新闻的爬虫，爬取的信息有：新闻标题来源url 发布时间正文编辑者与邱老师的爬虫相比有以下几点不同：没有爬取新闻评论数目对错误网页进行跳过处理适应当前网页标签可以通过修改main下的range(a,b)范围来控制爬取新闻的条数。新浪网每页20条新闻，也就是说range(10)可以爬取10 ...
复制链接

扫一扫