环境 win10,anaconda3(python3.7)
IDE:spyder
爬取网址:http://finance.sina.com.cn/7x24/
抓取最近的新闻
方法思路,截取js文件,破解url含义,get请求并将数据json解析
此版本留下了获取历史信息的api,并没有对最终数据进行处理。
# -*- coding: utf-8 -*-
"""
Created on Wed May 22 14:27:02 2019
@author:hanginghang
"""
'''
version:2.0
代码重新架构,把脚本封装为函数以方便处理数据
增加了测试模块,以防止网络波动导致的代码运行中断
'''
lastdateid = '0'
import requests
import json
import time
#获取最新消息的地址
base_url_new = 'http://zhibo.sina.com.cn/api/zhibo/feed?\
callback=jQuery0&page=1&page_size=1&zhibo_id=152\
&tag_id=0&dire=f&dpc=1&pagesize=1&_=0%20Request%20Method:GET'
#自定义js提取页
'''
输入请用str格式
oldnum_str:此数字或者是以现在为计时之前的页数
this