python爬取关注度高股票,Python爬取股票数据，让你感受一下什么是一秒钟两千条数据...-CSDN博客

本文的文字及图片过滤网络，可以学习，交流使用，不具有任何商业用途，如有问题请及时联系我们以作处理。

以下文章来源于青灯编程，作者：清风

Python GUI编程：高清电影在线观看平台制作，全网电影免费看

https://www.bilibili.com/video/BV1tz4y1o7Yc/

让你感受一下什么是一秒钟下载两千条数据。。

基本开发环境

Python 3.6

皮查姆

相关模块的使用

import csv

import time

import requests

import concurrent.futures

目标网页分析

17d8b024d922

一共214页的数据，每页数据20条，总计是4280。

：开发者工具，点击第二页，在XHR里面会出现数据。。

17d8b024d922

这是链接的参数，其中的pn对应就是页码，选择的第二页所以pn：2

如果细心的话，可以发现返回的数据并非是一个json数据。

17d8b024d922

这样的数据提取肯定是转换成json数据才好提取。这有两个方法：

方法一：

把参数中的< cb：jQuery1124036392017581464287_1608882113715 >去掉，不打算进去，就可以直接以response.json()的形式输出。

import requests

url = 'http://49.push2.eastmoney.com/api/qt/clist/get'

params = {

# 'cb': 'jQuery1124036392017581464287_1608882113715',

'pn': '2',

'pz': '20',

'po': '1',

'np': '1',

'ut': 'bd1d9ddb04089700cf9c27f6f7426281',

'fltt': '2',

'invt': '2',

'fid': 'f3',

'fs': 'm:0 t:6,m:0 t:13,m:0 t:80,m:1 t:2,m:1 t:23',

'fields': 'f1,f2,f3,f4,f5,f6,f7,f8,f9,f10,f12,f13,f14,f15,f16,f17,f18,f20,f21,f23,f24,f25,f22,f11,f62,f128,f136,f115,f152',

'_': '1608882115527',

}

headers = {

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36'

}

response = requests.get(url=url, params=params, headers=headers)

html_data = response.json()

stock_data = html_data['data']['diff']

方法二：

1，正常参数，请求网页返回数据response.txt

2，用正则匹配 jQuery1124036392017581464287_1608882113715(。？) 匹配中间的数据*

3，通过导入json模块，串联转json数据json.loads

import pprint

import re

import requests

import json

url = 'http://49.push2.eastmoney.com/api/qt/clist/get'

params = {

'cb': 'jQuery1124036392017581464287_1608882113715',

'pn': '2',

'pz': '20',

'po': '1',

'np': '1',

'ut': 'bd1d9ddb04089700cf9c27f6f7426281',

'fltt': '2',

'invt': '2',

'fid': 'f3',

'fs': 'm:0 t:6,m:0 t:13,m:0 t:80,m:1 t:2,m:1 t:23',

'fields': 'f1,f2,f3,f4,f5,f6,f7,f8,f9,f10,f12,f13,f14,f15,f16,f17,f18,f20,f21,f23,f24,f25,f22,f11,f62,f128,f136,f115,f152',

'_': '1608882115527',

}

headers = {

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36'

}

response = requests.get(url=url, params=params, headers=headers)

result = re.findall('jQuery1124036392017581464287_1608882113715\((.*?)\);', response.text)[0]

html_data = json.loads(result)

stock_data = html_data['data']['diff']

pprint.pprint(stock_data)

对于这个网站，以上两种方法都是可以的，但是一般建议使用第二种方式，因为第一种方式毕竟是投机取巧。

17d8b024d922

取值之后是一个列表的数据，通过用于循环遍历即可，获取每一支股票的相关数据了，通过键值对取值获取相对应的数据即可。

for i in stock_data:

dit = {

'代码': i['f12'],

'名称': i['f14'],

'最新价': i['f2'],

'涨跌幅': str(i['f3']) + '%',

'涨跌额': i['f4'],

'成交量(手)': i['f5'],

'成交额': i['f6'],

'振幅': str(i['f7']) + '%',

'最高': i['f15'],

'最低': i['f16'],

'今开': i['f17'],

'昨收': i['f18'],

'量比': i['f10'],

'换手率': str(i['f8']) + '%',

'市盈率(动态)': i['f9'],

'市净率': i['f23'],

}

保存数据通过csv模块保存就可以了。

使用多线程爬取速度有多快？

给五个线程时的速度：

if __name__ == '__main__':

start_time = time.time()

executor = concurrent.futures.ThreadPoolExecutor(max_workers=5)

for page in range(1, 215):

url = f'http://49.push2.eastmoney.com/api/qt/clist/get?pn={page}&pz=20&po=1&np=1&ut=bd1d9ddb04089700cf9c27f6f7426281&fltt=2&invt=2&fid=f3&fs=m:0+t:6,m:0+t:13,m:0+t:80,m:1+t:2,m:1+t:23&fields=f1,f2,f3,f4,f5,f6,f7,f8,f9,f10,f12,f13,f14,f15,f16,f17,f18,f20,f21,f23,f24,f25,f22,f11,f62,f128,f136,f115,f152&_=1608882114076'

executor.submit(main, url)

executor.shutdown()

总耗时：3.685572624206543

总计数据：4279条数据

所以平均每秒钟爬取1161条数据。

17d8b024d922

当我给10个线程时的速度：

if __name__ == '__main__':

start_time = time.time()

executor = concurrent.futures.ThreadPoolExecutor(max_workers=10)

for page in range(1, 215):

executor.submit(main, url)