爬虫项目（下）

最新推荐文章于 2024-10-18 14:25:40 发布

m0_69625145

最新推荐文章于 2024-10-18 14:25:40 发布

阅读量436

点赞数 1

文章标签：爬虫数学建模

本文链接：https://blog.csdn.net/m0_69625145/article/details/130955471

版权

紧接上文，我们已经把数据拿到了，接下来进行数据保存，把所有爬取的东西写入到excel中

from openpyxl import workbook


def save_data(title,media_name,url):
    my_list=[title,media_name,url]
    ws.append(my_list)
    wb.save('新闻.xlsx')


 url = 'https://i.news.qq.com/trpc.qqnews_web.kv_srv.kv_srv_http_proxy/list'
    wb = workbook.Workbook()
    ws = wb.active
    ws.append(['新闻标题', '媒体', '网址'])
    for i in range(0, 181, 20):
         ----snip-----

首先进行导包，from openpyxl import workbook 这是进行excel 操作的首要

我们把文件的标题命名为新闻，随后把数据写进去

运行之后我们打开excel

数据已经全部写进去了

到这里所有的工作就完成了

以下是本次工作的所有代码

import requests
from jsonpath import jsonpath
from openpyxl import workbook
import sys
from fake_useragent import UserAgent

ua=UserAgent()
print(ua.chrome)



def get_data(url):
    try:
        headers={
            'user-agent': 'ua.chrame'
        }
        response=requests.get(url,headers=headers,params=datas)
        r=response.json()
        return r
    except:
        sys.setrecursionlimit(5)
        return get_data(url)



def parse_data(data):
    try:
        title=jsonpath(data,'$..title')
        media_name=jsonpath(data,'$..media_name')
        url=jsonpath(data,'$..url')
        for titles,media_names,urls in zip(title,media_name,url):
            print(titles)
            print(media_names)
            print(urls)
            save_data(titles,media_names,urls)
    except:
        sys.exit(1)  #终止程序，0为正常退出，（1-127)为不正常退出

def save_data(title,media_name,url):
    my_list=[title,media_name,url]
    ws.append(my_list)
    wb.save('新闻.xlsx')

if __name__=='__main__':

    url = 'https://i.news.qq.com/trpc.qqnews_web.kv_srv.kv_srv_http_proxy/list'
    wb = workbook.Workbook()
    ws = wb.active
    ws.append(['新闻标题', '媒体', '网址'])
    for i in range(0, 181, 20):
        print('正在翻阅参数为{}的页'.format(i))
        datas = {
            'sub_srv_id': '24hours',
            'srv_id': 'pc',
            'offset': '{}'.format(i),
            'limit': '20',
            'strategy': '1',
            'ext': '{"pool":["top","hot"],"is_filter":7,"check_type":true}',}
        data=get_data(url)
        parse_data(data)