爬取了同花顺上概念板块的成分股
主要是发现了各个量化的网站没有这个数据源,很多策略无法展开。这份数据应该挺多人需要的吧。把链接挂这里了,需要的阔以下载
http://pan.baidu.com/s/1eSGSS5W
数据有4列,分别是板块代码,板块名字,成分股代码以及对应的公司
源码贴出来了,初步学习爬虫,写的十分难看。。。。
1 #!/usr/bin/env python3 2 # -*- coding: utf-8 -*- 3 """ 4 Created on Fri Nov 17 19:41:44 2017 5 6 @author: Mr.ZeroW 7 8 同花顺板块成分股 9 """ 10 11 #首先不同板块地址不同 http://q.10jqka.com.cn/gn/detail/order/desc/page/1/ajax/1/code/300018 12 #需要高出不同板块页数有多少,才能得出地址 13 import urllib.request 14 from lxml import etree 15 import pandas as pd 16 import time 17 18 #爬取板块名称以及代码并且存在文件 19 with urllib.request.urlopen('http://q.10jqka.com.cn/gn/') as f: 20 text = f.read().decode('gb2312') 21 22 html = etree.HTML(text)