python[爬虫]爬取百万条新浪新闻 新浪滚动新闻中心(多进程)

最近在做python爬取新闻,所以分别研究了下新浪、网易、中国新闻网的爬取方法。其他几个网页的新闻爬取我的博客里都有,请自行查看~
首先,因为需获取的数据为百万级别,所以直接选择了新浪的滚动新闻中心

https://news.sina.com.cn/roll/#pageid=153&lid=2509&k=&num=50&page=1

本人共需获取100w条数据,分了10个新闻类别,每个类别获取10w条

获取百万条新闻链接,存储到csv文件中

1、获取滚动新闻网第一页的50条新闻链接
获取某一页内的新闻链接可以直接这样写,测试使用

import time
import sys
import requests
from multiprocessing import Pool
from bs4 import BeautifulSoup

init_url = 'https://feed.mix.sina.com.cn/api/roll/get?pageid=153&lid=2509&k=&num=50&page={}'
headers = {
   'User-Agent':
                    'Mozilla/5.0 (Windows NT 10.0; WOW64) '
                    'AppleWebKit/537.36 (KHTML, like Gecko) '
                    'Chrome/55.0.2883.87 Safari/537.36'}
page = requests.get(url=init_url.format(1)).json()
#res = json.loads(res.text)
for j in range(50):
    urls = page['result']['data'][j]['wapurl']
    print(urls)

2、取某一类别的新闻链接
以“科技”新闻为例

'''
获取 新浪滚动新闻 的链接
存储为csv文件
'''
import time
import sys
import os
import requests
from multiprocessing import Pool
from bs4 import BeautifulSoup
评论 11
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值