新浪24小时财经爬虫源码

最新推荐文章于 2024-03-18 16:02:18 发布

hanginghang

最新推荐文章于 2024-03-18 16:02:18 发布

阅读量3.2k

点赞数 1

文章标签： python爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_35502383/article/details/90576283

版权

环境 win10，anaconda3（python3.7）
IDE：spyder
爬取网址：http://finance.sina.com.cn/7x24/
抓取最近的新闻
方法思路，截取js文件，破解url含义，get请求并将数据json解析

此版本留下了获取历史信息的api，并没有对最终数据进行处理。

 # -*- coding: utf-8 -*-

"""
Created on Wed May 22 14:27:02 2019

@author:hanginghang
"""

'''
version：2.0
代码重新架构，把脚本封装为函数以方便处理数据
增加了测试模块，以防止网络波动导致的代码运行中断
'''
lastdateid = '0'

import requests
import json
import time
#获取最新消息的地址
base_url_new = 'http://zhibo.sina.com.cn/api/zhibo/feed?\
            callback=jQuery0&page=1&page_size=1&zhibo_id=152\
            &tag_id=0&dire=f&dpc=1&pagesize=1&_=0%20Request%20Method:GET'
            
#自定义js提取页
'''
输入请用str格式
oldnum_str:此数字或者是以现在为计时之前的页数
this

最低0.47元/天解锁文章

博客等级

码龄9年

7
原创

24
点赞

171
收藏

9
粉丝

关注

私信

热门文章

上一篇：: python入门网页小合集

下一篇：: cpu总线结构，stm32编译文件内部的数据分类，以及stm32的bootloader的3种上电启动类型，和上电数据流向的问题简述

最新评论

stm32 HAL库 Flash操作简介
wzhg329: uint32_t Flash_Add = 0x0800d000; FLASH_EraseInitTypeDef My_Flash; //声明FLASH_EraseInitTypeDef 结构体为 My_Flash HAL_FLASH_Unlock(); //解锁Flash My_Flash.TypeErase = FLASH_TYPEERASE_PAGES; //标明Flash执行页面只做擦除操作 My_Flash.PageAddress = Flash_Add; //声明要擦除的地址你确定My_Flash.PageAddress=0x0800d000，而不是赋值起始页？
新浪24小时财经爬虫源码
hanginghang: https://news.10jqka.com.cn/tapp/news/push/stock/?page=1&tag=&track=website&pagesize=1 数据参数可以根据上文自行改变
新浪24小时财经爬虫源码
gengzhh: 请问这个地址应该怎么找啊，我想试试爬取https://news.10jqka.com.cn/realtimenews.html### 的消息，连地址都找不到
新浪24小时财经爬虫源码
Freedom-Man 回复 hanginghang: 谢谢，拦截网络请求找到了
新浪24小时财经爬虫源码
hanginghang 回复 Freedom-Man: network 截的，然后找近似的，它没加密，好找

最新文章

目录

展开全部

收起

评论 11

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。