Python之路__爬虫篇:新浪新闻爬取回顾(三)

获取首页分页 range(1, 2) 可以范围大一点

#3- 获取首页新闻分页 并拿出所有分页的新闻URL 并取得对应新闻的内容
import json

commonPage = 'http://api.roll.news.sina.com.cn/zt_list?channel=news&cat_1=gnxw&cat_2==gdxw1||=gatxw||=zs-pl||=mtjj&level==1||=2&show_ext=1&show_all=1&show_num=22&tag=1&format=json&page={}'

def getNewLists(commonPage):

    newsList = []

    for i in range(1, 2):
        newsPage = commonPage.format(i)
        # print(newsPage)

        reContent = requests.get(newsPage)
        reContent.encoding = 'utf-8'

        if reContent.status_code == 200:
            jsonData = json.loads(reContent.text)

            for newDic in jsonData['result']['data']:
                newsURL = newDic['url']

                #print(newsURL)

                newsList.append(getNewsDetail(newsURL))
        else:
            print('分页结束******')
            break

    return newsList

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值