问题描述
前几天一个做会计的朋友找到我,问我能不能帮忙写一个爬虫用来爬取东方财富网上的一些财务报表信息,因为有十几个公司自己一个一个复制挺麻烦的。由于自己最近也不算特别忙,所以随便弄一下玩玩。
需要爬取数据的网站
该网站中的主要指标、资产负债表和利润表中的某些项目
做成之后的表格如下
问题分析
由于每怎么搞过爬虫,所以就想能不能用URL直接访问网页获取这些数据的JSON页面,而使用该方法的关键就是找到获取这些数据的URL
按F12(google浏览器)打开开发者工具页面,点击上方的Network界面,然后在含有需要数据的页面刷新一下页面
首先分析可以知道URL请求中必定包含股票代码,否则上千只股票不可能一个一个设置网站,因此逐个查看上述URL中带股票代码的请求,如上图所示的股票代码为002482
很容易发现,上述三条的命名中分别有需要的主要指标、资产负债表、利润表的拼音缩写
将其打开不难发现
其内容正是我们需要的JSON数据
对比主要指标中2021-03-31的数据和JSON文件中data中的第一项数据
其余两项资产负债表和利润表也是类似,因此只需要在程序中获取该URL下的JSON数据即可获得所需数据。
QT实现
新建一个桌面应用程序,不包含UI
finState.pro
#-------------------------------------------------
# Project created by Hualuoxi 2021-05-15
#-------------------------------------------------
QT += core gui
QT += quick
CONFIG += c++11
greaterThan(QT_MAJOR_VERSION, 4): QT += widgets
TARGET = finState
TEMPLATE = app
DEFINES += QT_DEPRECATED_WARNINGS
SOURCES += \
main.cpp \
mainwindow.cpp
HEADERS += \
mainwindow.h
mainwindow.h
#ifndef MAINWINDOW_H
#define MAINWINDOW_H
#include <QMainWindow>
#include <QtNetwork>
#include <QJsonDocument>
#include <QJsonParseError>
#include <QJsonObject>
#include <QJsonValue>
#include <QJsonArray>
#include <windows.h>
#include <QVector>
#include <QFile>
#include <QApplication>
#include <QMessageBox>
struct ZYZB //主要指标
{
double ZCFZL = 0.0; //资产负债率(%)
double SD = 0.0; //速动比率
double LD = 0.0; //流动比率
double YSZKZZL = 0.0; //应收账款周转率(次)
double CHZZL = 0.0; //存货周转率(次)
double TOAZZL = 0.0; //总资产周转率(次)
double MGJYXJJE = 0.0; //每股经营现金流(元)
double XSJLL = 0.0; //净利率(%)
double XSMLL = 0.0; //毛利率(%)
double ROEJQ = 0.0; //净资产收益率(加权)(%)
};
struct ZCFZB //资产负债表
{
double INVENTORY = 0.0; //存货
QString Date;
};
struct LRB //利润表
{
double TOTAL_OPERATE_INCOME = 0.0; //营业总收入
double SALE_EXPENSE = 0.0; //销售费用
double MANAGE_EXPENSE = 0.0; //管理费用
double FINANCE_EXPENSE = 0.0; //财务费用
double OPERATE_PROFIT = 0.0; //营业利润
};
struct StockData
{
QString tricker;
ZYZB mZYZB[4];
ZCFZB mZCFZB[4];
LRB mLRB[4];
};
class MainWindow : public QMainWindow
{
Q_OBJECT
public:
MainWindow(QWidget *parent = 0);
~MainWindow();
void httprequest();
void coutCSV();
void Sleep_ms(int msec);
bool isreadingZYZB=0;
bool readokZYZB=0;
bool isreadingZCFZB=0;
bool readokZCFZB=0;
bool isreadingLRB=0;
bool readokLRB=0;
QNetworkAccessManager *managerZYZB;
QNetworkAccessManager *managerZCFZB;
QNetworkAccessManager *managerLRB;
QVector<QString> stock = {
"SZ002482","SZ002081","SZ002375","SZ002047","sh601886","sh603030",
"SZ002620","SZ002781","SZ002811","SZ002822","SZ002789","SZ002325","sz300621","SZ002989"}; //需要获取数据的股票代码
int mIndex = 0;
StockData mStockData[14];
public slots:
void httpreplyZYZB(QNetworkReply *reply);
void httpreplyZCFZB(QNetworkReply *reply);
void httpreplyLRB(QNetworkReply *reply);
};
#endif // MAINWINDOW_H
main.cpp
#include "mainwindow.h"
int main(int argc, char *argv[])
{
QApplication a(argc, argv);
MainWindow w;
w.httprequest();
w.coutCSV();
// w.resize(960,640);
// w.show();
return a.exec();
}
mainwindow.cpp
#include "mainwindow.h"
MainWindow::MainWindow(QWidget *parent)
: QMainWindow(parent)
{
managerZYZB = new QNetworkAccessManager()