python[爬虫]爬取百万条新浪新闻 新浪滚动新闻中心(多进程)

最近在做python爬取新闻,所以分别研究了下新浪、网易、中国新闻网的爬取方法。其他几个网页的新闻爬取我的博客里都有,请自行查看~
首先,因为需获取的数据为百万级别,所以直接选择了新浪的滚动新闻中心

https://news.sina.com.cn/roll/#pageid=153&lid=2509&k=&num=50&page=1

本人共需获取100w条数据,分了10个新闻类别,每个类别获取10w条

获取百万条新闻链接,存储到csv文件中

1、获取滚动新闻网第一页的50条新闻链接
获取某一页内的新闻链接可以直接这样写,测试使用

import time
import sys
import requests
from multiprocessing import Pool
from bs4 import BeautifulSoup

init_url = 'https://feed.mix.sina.com.cn/api/roll/get?pageid=153&lid=2509&k=&num=50&page={}'
headers = {
   'User-Agent':
                    'Mozilla/5.0 (Windows NT 10.0; WOW64) '
                    'AppleWebKit/537.36 (KHTML, like Gecko) '
                    'Chrome/55.0.2883.87 Safari/537.36'}
page = requests.get(url=init_url.format(1)).json()
#res = json.loads(res.text)
for j in range(50):
    urls = page['result']['data'][j]['wapurl']
    print(urls)

2、取某一类别的新闻链接
以“科技”新闻为例

'''
获取 新浪滚动新闻 的链接
存储为csv文件
'''
import time
import sys
import os
import requests
from multiprocessing import Pool
from bs4 import BeautifulSoup
### 配置虚拟机连接外部无线网卡并运行 Fern WiFi Cracker 工具 要在虚拟机中通过无线网卡使用 Fern WiFi Cracker 进行无线攻击,需要完成以下几个方面的配置: #### 虚拟机网络适配器设置 在虚拟机软件(如 VMware 或 VirtualBox)中,需将主机上的物理无线网卡传递给虚拟机。此操作通常涉及 USB 设备直通功能或 PCI 直通技术。 对于大多数主流虚拟机平台而言,可以通过以下方式实现: - **VirtualBox**: 将无线网卡作为 USB 设备附加到虚拟机上。进入虚拟机的设置界面,在“USB”选项卡中启用 USB 控制器并将目标无线网卡分配至该虚拟机。 - **VMware**: 同样支持将 USB 无线网卡映射到虚拟机内部。具体方法是在虚拟机启动前,于硬件设置中的 USB 控制器部分绑定对应的设备[^2]。 #### 安装驱动程序和支持库 一旦成功挂载了实际存在的 Wi-Fi 接口,则需要安装适用于 Linux 的相应驱动以及 AirCrack-ng 套件来激活监控模式(monitormode),这是执行任何类型的捕获活动所必需的前提条件之一。例如 Atheros AR9271 卡可能依赖 ath9k_htc 模块加载才能正常工作;而 Realtek RTL88xx 系列芯片组则往往需要用到 rtl8812au/rtl88x2bu 开源项目所提供的补丁版本固件文件才行[^3]。 #### 设置 Fern WiFi Cracker 当确认无线网卡已被识别并且能够切换成监听状态之后,就可以着手准备部署 Fern WiFi Cracker 图形化环境啦! 以下是几个关键步骤概述: 1. 更新包管理索引数据库 `sudo apt update && sudo apt upgrade`; 2. 如果尚未存在的话,请先获取 git 版本控制系统以便克隆远程仓库资源下来:`sudo apt install git`; 3. 下载最新发行版代码副本 `git clone https://github.com/savio-code/fern-wifi-cracker.git` 并跳转目录 cd fern-wifi-cracker/; 4. 执行脚本来初始化必要的依赖关系构建过程 ./install.sh; 5. 最终调用 python 应用入口点开始 GUI session —— python fern-wifi-cracker.py. ```bash # 此处展示命令序列用于引导用户顺利完成上述流程 sudo apt-get update sudo apt-get install -y build-essential autoconf libtool pkg-config \ zlib1g-dev libnl-3-dev libssl-dev iw ethtool usbutils macchanger tcpdump aircrack-ng tshark wireshark cd /opt/ git clone https://github.com/savio-code/fern-wifi-cracker.git chmod +x ./fern-wifi-cracker/install.sh ./fern-wifi-cracker/install.sh python ./fern-wifi-cracker/fern-wifi-cracker.py ``` 以上即为整个过程中涉及到的主要环节说明文档内容总结][^[^23].
评论 11
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值