python[爬虫]爬取百万条新浪新闻新浪滚动新闻中心(多进程)

最新推荐文章于 2024-01-17 16:35:52 发布

Mooney安

最新推荐文章于 2024-01-17 16:35:52 发布

阅读量4.5k

点赞数 10

分类专栏：爬取新闻内容文章标签： python 多进程

本文链接：https://blog.csdn.net/Iv_zzy/article/details/107535041

版权

最近在做python爬取新闻，所以分别研究了下新浪、网易、中国新闻网的爬取方法。其他几个网页的新闻爬取我的博客里都有，请自行查看~
首先，因为需获取的数据为百万级别，所以直接选择了新浪的滚动新闻中心

https://news.sina.com.cn/roll/#pageid=153&lid=2509&k=&num=50&page=1

本人共需获取100w条数据，分了10个新闻类别，每个类别获取10w条

获取百万条新闻链接，存储到csv文件中

1、获取滚动新闻网第一页的50条新闻链接
获取某一页内的新闻链接可以直接这样写，测试使用

import time
import sys
import requests
from multiprocessing import Pool
from bs4 import BeautifulSoup

init_url = 'https://feed.mix.sina.com.cn/api/roll/get?pageid=153&lid=2509&k=&num=50&page={}'
headers = {
   'User-Agent':
                    'Mozilla/5.0 (Windows NT 10.0; WOW64) '
                    'AppleWebKit/537.36 (KHTML, like Gecko) '
                    'Chrome/55.0.2883.87 Safari/537.36'}
page = requests.get(url=init_url.format(1)).json()
#res = json.loads(res.text)
for j in range(50):
    urls = page['result']['data'][j]['wapurl']
    print(urls)

2、取某一类别的新闻链接
以“科技”新闻为例

'''
获取 新浪滚动新闻 的链接
存储为csv文件
'''
import time
import sys
import os
import requests
from multiprocessing import Pool
from bs4 import BeautifulSoup

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Mooney安

关注关注

10
点赞
踩
31

收藏

觉得还不错? 一键收藏
11
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

财经新闻爬虫：使用 Python 获取最新财经新闻数据

2201_76125261的博客

03-25

1084

在本文中，我们详细介绍了如何使用 Python 和requestsSelenium等技术，爬取主流财经新闻网站的最新消息。通过静态页面的requests爬取和动态页面的Selenium爬取，我们成功提取了新闻标题、链接等信息，并存储为 CSV 文件，方便后续分析和使用。此外，我们还介绍了如何通过关键词筛选，获取特定领域的财经新闻。这个爬虫不仅可以帮助你获取财经新闻数据，还能为后续的舆情分析、数据挖掘和市场研究提供有力的数据支持。

python爬虫：爬取新浪新闻数据

数据分析阿宇君的博客

03-14

5674

1. 爬虫的浏览器伪装原理：我们可以试试爬取csdn博客,我们发现会返回403 ,因为对方服务器会对爬虫进行屏蔽。此时,我们需要伪装成浏览器才能爬取。 2.实战分析：浏览器伪装一般通过报头进行：打开某个网页，按F12—Network— 任意点一个网址可以看到：Headers—Request Headers中的关键词User-Agent用来识别是爬虫还是浏览器。 import urllib.r...

11 条评论您还未登录，请先登录后发表或查看评论

Python爬虫实战 | (13) 爬取新浪滚动新闻

sdu_hao的博客

07-20

4335

在本篇博客中，我们将使用selenium爬取新浪新闻中滚动页面的所有新闻内容，包括题目、时间、来源、正文，并存入MongoDB数据库。网址：https://news.sina.com.cn/roll。打开后，发现这里都是一些滚动新闻，每隔1分钟就会刷新：我们右键查看网页源代码，发现并没有当前页面的信息：在源码页面搜索当前第一条新闻，并没有找到。右键检查：发现有当前页...

新闻采集系统python_Python实现多篇新闻自动采集

weixin_39860108的博客

11-20

445

目标：将腾讯新闻主页上所有新闻爬取下来，获得每一篇新闻的名称、时间、来源以及正文。步骤1：将主页上所有链接爬取出来，写到文件里。根据 Python天气预报采集器（网页爬虫）的方法，可以简单地获取到整个主页的文本内容。我们都知道html链接的标签是“a”，链接的属性是“href”，也就是要获得html中所有tag=a，attrs=href 值。查阅了资料，一开始我打算用HTMLParser，而且也写...

Python3爬虫实践--网易科技滚动新闻爬取

weixin_34032827的博客

03-13

207

2019独角兽企业重金招聘Python工程师标准>>> ...

新浪新闻爬虫

m0_52474839的博客

11-13

319

【代码】【无标题】

爬取新浪滚动新闻--每个详情页标题以及内容

weixin_44658467的博客

12-20

1904

1、爬取地址：新浪滚动新闻网址为： https://news.sina.com.cn/roll/#pageid=153&lid=2509&k=&num=50&page=1 2、这个滚动新闻是新浪每天实时更新的新闻，有需要的，可以参考下可能每个人的都不一样，自己在doc/js/xhr，这三个地方找找看废话不多说，看代码吧 from lxml import etre...

Python爬虫爬取滚动新闻

敷衍zgf的博客

09-24

1875

python爬取新闻数据

Python网络爬虫爬取新浪新闻

XAKK的博客

04-10

2472

笔者最近由于需要研究互联网新闻，于是基于邱老师的网络爬虫实战，写了一个爬取新浪新闻的爬虫，爬取的信息有：新闻标题来源url 发布时间正文编辑者与邱老师的爬虫相比有以下几点不同：没有爬取新闻评论数目对错误网页进行跳过处理适应当前网页标签可以通过修改main下的range(a,b)范围来控制爬取新闻的条数。新浪网每页20条新闻，也就是说range(10)可以爬取10 ...

用户体验之新浪滚动新闻

weixin_33962923的博客

01-08

308

新浪的滚动新闻页面（http://news.sina.com.cn/news1000/index.shtml）做得有点不是很人性化，它的翻页是基于的ajax，但是翻页的话实际上用户习惯是从列表的顶部开始看，但是它却没有定位，用户还需要再滚动页面，不像迅雷的页面，体验就比较好 ...

（6）Python爬虫——爬取中新网新闻

好女绪的博客

03-18

7434

工欲善其事，必先利其器。我们要进行数据挖掘，就必须先获取数据，获取数据的方法有很多种，其中一种就是爬虫。下面我们利用Python2.7，写一个爬虫，专门爬取中新网http://www.chinanews.com/scroll-news/news1.html滚动新闻列表内的新闻，并将新闻正文保存在以新闻类别命名的文件夹下的以该新闻的发布日期和顺序命名的文本中。具体代码如下：#!/usr/bin/pyt

python3.x 爬取新浪新闻-国内新闻的时间，标题，详细内容链接

06-15

python3.x 爬取新浪新闻-国内新闻的时间，标题，详细内容链接

python 爬取财经新闻_Python光大证券中文云系统——爬取新浪财经新闻

weixin_39517202的博客

12-03

841

【任务目标】调通光大证券中文云系统【任务进度】依据Github光大证券中文云系统开源的说明文档，应该是分爬虫模块、检索模块、统计模块、关键词频模块和关键词网络模块，是一个整体非常庞大的系统。现在的进度是，深入研究了爬虫模块。爬虫模块主要作用在于将股票论坛、个股新闻、研究报告三个网站的网页数据通过网页解析的方式将文本内容爬下来,用于之后模块的文本挖掘。爬虫模块将爬到的文本数据以【日期 + 股票代码】...

python爬虫---网页爬虫，图片爬虫，文章爬虫，Python爬虫爬取新闻网站新闻！

2301_78217634的博客

01-17

1906

免费。

Python爬虫实战——爬取新闻数据（简单的深度爬虫）

热门推荐

weixin_54243306的博客

03-02

1万+

新闻数据爬取

java 爬虫（爬新浪新闻）如何从零开始 - 简书

m0_51634541的博客

09-03

1087

本文由简悦 SimpRead 转码，原文地址 bbs.huaweicloud.com 这篇文章能够快速教你爬取新浪新闻。希望这篇文章对您有所帮助！如果您有想学习的知识或建议，可以给作者留言~ 如何快速爬取新浪新闻并保存到本地一… 这篇文章能够快速教你爬取新浪新闻。希望这篇文章对您有所帮助！如果您有想学习的知识或建议，可以给作者留言~ 此为一个系列，并将持续更新：专栏链接：快速入门之爬虫 1、网页加载模式动态网页动态网页不同于传统的静态网页，如果想用传统的方式爬取，会出错的。.

python爬取新闻数据

qq_57344778的博客

03-22

5997

爬虫数据网址：新闻中心滚动新闻_新浪网最近想获取一些新闻数据来做一个NLP的分类模型所以爬取了新浪的一些新闻数据用于学习使用。首先先查看网页源码：发现url中id和类别中的s_id相等，经过尝试替换，发现该编号确实是类别所在标签。有发现page这个参数和页数相同，其中num=50,和pageid=153这两个参数没有太大的影响，所以就可以通过修改这两个参数的值来获得不同标签下的url了。然后通过这个url 放入谷歌浏览器中去抓取数据所在的json：可以发现每个数据文件..

python 爬虫爬取中国新闻网

Iv_zzy的博客

07-23

5847

中国新闻网的新闻种类较多、而且新闻比较丰富，如果需要获取大量新闻的话，中国新闻网是个不错的选择。界面是这样的：从url不难发现，改变日期就能获取不同日期的新闻那么，正文开始。。。 1、获取某一个链接的新闻详情页信息 import requests from bs4 import BeautifulSoup url = 'http://www.chinanews.com/auto/2019/01-30/8743035.shtml' res = requests.get(url) res.encodi

Python使用requests库爬取中国新闻网指定页面

qq_43382739的博客

07-23

2145

前言前面的文章（https://blog.csdn.net/qq_43382739/article/details/107513977）主要爬取首页的新闻列表而不是具体的新闻内容，本文会具体的分析如何爬取实际的新闻页面的具体内容观察图中的新闻列表会发现有三种类型的新闻，点进去可以发现三种新闻的页面的类型不同，这里只选择性爬取类似于第一条新闻的类型，另外两种类型的爬取方法相似，可以自己去实践–_-- 页面分析一个新闻的内容不外乎三种类型：视频，图片，文字。这里选取三种内容都包含的页面来分析，链接如下：

虚拟机连接上外界的无线网卡之后，选择“应用程序→06 无线攻击→fern wifi cracker。启动 fern 工具。

最新发布

03-30

### 配置虚拟机连接外部无线网卡并运行 Fern WiFi Cracker 工具要在虚拟机中通过无线网卡使用 Fern WiFi Cracker 进行无线攻击，需要完成以下几个方面的配置： #### 虚拟机网络适配器设置在虚拟机软件（如 VMware 或 VirtualBox）中，需将主机上的物理无线网卡传递给虚拟机。此操作通常涉及 USB 设备直通功能或 PCI 直通技术。对于大多数主流虚拟机平台而言，可以通过以下方式实现： - **VirtualBox**: 将无线网卡作为 USB 设备附加到虚拟机上。进入虚拟机的设置界面，在“USB”选项卡中启用 USB 控制器并将目标无线网卡分配至该虚拟机。 - **VMware**: 同样支持将 USB 无线网卡映射到虚拟机内部。具体方法是在虚拟机启动前，于硬件设置中的 USB 控制器部分绑定对应的设备[^2]。 #### 安装驱动程序和支持库一旦成功挂载了实际存在的 Wi-Fi 接口，则需要安装适用于 Linux 的相应驱动以及 AirCrack-ng 套件来激活监控模式(monitormode)，这是执行任何类型的捕获活动所必需的前提条件之一。例如 Atheros AR9271 卡可能依赖 ath9k_htc 模块加载才能正常工作；而 Realtek RTL88xx 系列芯片组则往往需要用到 rtl8812au/rtl88x2bu 开源项目所提供的补丁版本固件文件才行[^3]。 #### 设置 Fern WiFi Cracker 当确认无线网卡已被识别并且能够切换成监听状态之后，就可以着手准备部署 Fern WiFi Cracker 图形化环境啦！以下是几个关键步骤概述： 1. 更新包管理索引数据库 `sudo apt update && sudo apt upgrade`； 2. 如果尚未存在的话，请先获取 git 版本控制系统以便克隆远程仓库资源下来：`sudo apt install git`； 3. 下载最新发行版代码副本 `git clone https://github.com/savio-code/fern-wifi-cracker.git` 并跳转目录 cd fern-wifi-cracker/; 4. 执行脚本来初始化必要的依赖关系构建过程 ./install.sh; 5. 最终调用 python 应用入口点开始 GUI session —— python fern-wifi-cracker.py. ```bash # 此处展示命令序列用于引导用户顺利完成上述流程 sudo apt-get update sudo apt-get install -y build-essential autoconf libtool pkg-config \ zlib1g-dev libnl-3-dev libssl-dev iw ethtool usbutils macchanger tcpdump aircrack-ng tshark wireshark cd /opt/ git clone https://github.com/savio-code/fern-wifi-cracker.git chmod +x ./fern-wifi-cracker/install.sh ./fern-wifi-cracker/install.sh python ./fern-wifi-cracker/fern-wifi-cracker.py ``` 以上即为整个过程中涉及到的主要环节说明文档内容总结][^[^23].

python[爬虫]爬取百万条新浪新闻 新浪滚动新闻中心(多进程)

获取百万条新闻链接，存储到csv文件中

python[爬虫]爬取百万条新浪新闻新浪滚动新闻中心(多进程)