爬取网站
领导又让人爬数据了,其实爬虫对我来说也就兼职做做,下面要爬取就是这个网站的几张列表。这个网站其实之前写过代码的,只是后来吧,这个数据被加密反爬虫了。
东方财富网报表
疑难分析
因为这个数据被加密了,所以我去找他的js。

发现他的js链接是:
http://dcfm.eastmoney.com/em_mutisvcexpandinterface/api/js/get?type=CWBB_XJLLB20&token=70f12f2f4f091e459a279469fe49eca5&st=noticedate&sr=-1&p=2&ps=50&js=var%20hfObYgLm={
pages:(tp),data:%20(x),font:(font)}&filter=(securitytypecode=%27058001001%27)(reportdate=^2019-06-30^)&rt=52837159

那这样子就可以直接开始读取这个js,然后解析了。没啥难度。

他这边是有字体对应关系的,比如说
code: "", value: 1
懂了吧?“” = 1
代码
现在附上详细的可以直接下载的代码:
import codecs
import csv
import random
import threading
import time
import requests
import os
import json
class eastmoneyspider_new():
page_num = 1
page_size = 1000
type = "YJBB21_YJBB"
filter = "(securitytypecode in ('058001001','058001002'))(reportdate=^datetime^)"
url = "http://dcfm.eastmoney.com/em_mutisvcexpandinterface/api/js"
param = {
"type": type,
"token": "70f12f2f4f091e459a279469fe49eca5",
# "st":"latestnoticedate",
# "sr":"-1",
"p":

本文介绍了如何爬取东方财富网的加密报表数据。通过分析js链接,找到字体对应关系,成功解析并提供了详细代码。文章还表达了对读者的感谢。
最低0.47元/天 解锁文章
8278

被折叠的 条评论
为什么被折叠?



