爬虫-东方财富网报表爬取(2020-03-25)

本文介绍了如何爬取东方财富网的加密报表数据。通过分析js链接,找到字体对应关系,成功解析并提供了详细代码。文章还表达了对读者的感谢。
摘要由CSDN通过智能技术生成

爬取网站

领导又让人爬数据了,其实爬虫对我来说也就兼职做做,下面要爬取就是这个网站的几张列表。这个网站其实之前写过代码的,只是后来吧,这个数据被加密反爬虫了。
东方财富网报表

疑难分析

因为这个数据被加密了,所以我去找他的js。
在这里插入图片描述

发现他的js链接是:

http://dcfm.eastmoney.com/em_mutisvcexpandinterface/api/js/get?type=CWBB_XJLLB20&token=70f12f2f4f091e459a279469fe49eca5&st=noticedate&sr=-1&p=2&ps=50&js=var%20hfObYgLm={
   pages:(tp),data:%20(x),font:(font)}&filter=(securitytypecode=%27058001001%27)(reportdate=^2019-06-30^)&rt=52837159

在这里插入图片描述

那这样子就可以直接开始读取这个js,然后解析了。没啥难度。
在这里插入图片描述
他这边是有字体对应关系的,比如说

code: "", value: 1

懂了吧?“” = 1

代码

现在附上详细的可以直接下载的代码:

import codecs
import csv
import random
import threading
import time

import requests
import os
import json


class eastmoneyspider_new():
    page_num = 1
    page_size = 1000
    type = "YJBB21_YJBB"
    filter = "(securitytypecode in ('058001001','058001002'))(reportdate=^datetime^)"

    url = "http://dcfm.eastmoney.com/em_mutisvcexpandinterface/api/js"
    param = {
   
        "type": type,
        "token": "70f12f2f4f091e459a279469fe49eca5",
        # "st":"latestnoticedate",
        # "sr":"-1",
        "p": 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

当法律与事业相遇

你的鼓励是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值