爬取网站
领导又让人爬数据了,其实爬虫对我来说也就兼职做做,下面要爬取就是这个网站的几张列表。这个网站其实之前写过代码的,只是后来吧,这个数据被加密反爬虫了。
东方财富网报表
疑难分析
因为这个数据被加密了,所以我去找他的js。
发现他的js链接是:
http://dcfm.eastmoney.com/em_mutisvcexpandinterface/api/js/get?type=CWBB_XJLLB20&token=70f12f2f4f091e459a279469fe49eca5&st=noticedate&sr=-1&p=2&ps=50&js=var%20hfObYgLm={
pages:(tp),data:%20(x),font:(font)}&filter=(securitytypecode=%27058001001%27)(reportdate=^2019-06-30^)&rt=52837159
那这样子就可以直接开始读取这个js,然后解析了。没啥难度。
他这边是有字体对应关系的,比如说
code: "", value: 1
懂了吧?“” = 1
代码
现在附上详细的可以直接下载的代码:
import codecs
import csv
import random
import threading
import time
import requests
import os
import json
class eastmoneyspider_new():
page_num = 1
page_size = 1000
type = "YJBB21_YJBB"
filter = "(securitytypecode in ('058001001','058001002'))(reportdate=^datetime^)"
url = "http://dcfm.eastmoney.com/em_mutisvcexpandinterface/api/js"
param = {
"type": type,
"token": "70f12f2f4f091e459a279469fe49eca5",
# "st":"latestnoticedate",
# "sr":"-1",
"p":