网络数据抓取



http://www.dataguru.cn/article-3717-1.html   炼数成金《数据分析,展现与R语言》课程


http://blog.sina.com.cn/s/blog_40a4e96d0101nvo3.html



http://blog.sciencenet.cn/home.php?mod=space&uid=461456&do=blog&id=455211

1.原文地址:

http://www.21andy.com/blog/20090530/1313.html

实时股票数据接口大全

股票数据的获取目前有如下两种方法可以获取:
1. http/javascript接口取数据
2. web-service接口

1.http/javascript接口取数据

1.1Sina股票数据接口

以大秦铁路(股票代码:601006)为例,如果要获取它的最新行情,只需访问新浪的股票数据
接口:

http://hq.sinajs.cn/list=sh601006

这个url会返回一串文本,例如:

var hq_str_sh601006="大秦铁路, 27.55, 27.25, 26.91, 27.55, 26.20, 26.91, 26.92, 
22114263, 589824680, 4695, 26.91, 57590, 26.90, 14700, 26.89, 14300,
 26.88, 15100, 26.87, 3100, 26.92, 8900, 26.93, 14230, 26.94, 25150, 26.95, 15220, 26.96, 2008-01-11, 15:05:32";

这个字符串由许多数据拼接在一起,不同含义的数据用逗号隔开了,按照程序员的思路,顺序号从0开始。

0:”大秦铁路”,股票名字;
1:”27.55″,今日开盘价;
2:”27.25″,昨日收盘价;
3:”26.91″,当前价格;
4:”27.55″,今日最高价;
5:”26.20″,今日最低价;
6:”26.91″,竞买价,即“买一”报价;
7:”26.92″,竞卖价,即“卖一”报价;
8:”22114263″,成交的股票数,由于股票交易以一百股为基本单位,所以在使用时,通常把该值除以一百;
9:”589824680″,成交金额,单位为“元”,为了一目了然,通常以“万元”为成交金额的单位,所以通常把该值除以一万;
10:”4695″,“买一”申请4695股,即47手;
11:”26.91″,“买一”报价;
12:”57590″,“买二”
13:”26.90″,“买二”
14:”14700″,“买三”
15:”26.89″,“买三”
16:”14300″,“买四”
17:”26.88″,“买四”
18:”15100″,“买五”
19:”26.87″,“买五”
20:”3100″,“卖一”申报3100股,即31手;
21:”26.92″,“卖一”报价
(22, 23), (24, 25), (26,27), (28, 29)分别为“卖二”至“卖四的情况”
30:”2008-01-11″,日期;
31:”15:05:32″,时间;

一个简单的JavaScript应用例子:

< script   type = " text/javascript "   src = " http://hq.sinajs.cn/list=sh601006 "   charset = " gb2312 " >< / script>
<script type="text
/ javascript " >
     var elements=hq_str_sh601006.split(
" , " );
    document.write(
" current   price : " +elements[3]);
</script>

这段代码输出大秦铁路(股票代码:601006)的当前股价

current price:14.20

如果你要同时查询多个股票,那么在URL最后加上一个逗号,再加上股票代码就可以了;比如你要一次查询大秦铁路(601006)和大同煤业(601001)的行情,就这样使用URL:

http://hq.sinajs.cn/list=sh601003,sh601001

查询大盘指数,比如查询上证综合指数(000001):

http://hq.sinajs.cn/list=s_sh000001

服务器返回的数据为:

var hq_str_s_sh000001="上证指数,3094.668,-128.073,-3.97,436653,5458126";

数据含义分别为:指数名称,当前点数,当前价格,涨跌率,成交量(手),成交额(万元);

查询深圳成指数:

http://hq.sinajs.cn/list=s_sz399001

对于股票的K线图,日线图等的获取可以通过请求http://image.sinajs.cn/…./…/*.gif此URL获取,其中*代表股票代码,详见如下:

查看日K线图:

http://image.sinajs.cn/newchart/daily/n/sh601006.gif

分时线的查询:

http://image.sinajs.cn/newchart/min/n/sh000001.gif

日K线查询:

http://image.sinajs.cn/newchart/daily/n/sh000001.gif

周K线查询:

http://image.sinajs.cn/newchart/weekly/n/sh000001.gif


月K线查询:

http://image.sinajs.cn/newchart/monthly/n/sh000001.gif

实时股票数据接口大全 sh000001

1.2 Baidu&Google的财经数据
在baidu, google中搜索某只股票代码时,将会在头条显示此股票的相关信息,例如在google搜索601006时,
第一条搜索结果如下图:
通过点击左边的图片我们发现会将此图片链接到sina财经频道上,也就是说google股票数据的获取也是从sina获取。后经抓包分析,发现google也是采用1.1中介绍的接口。

Baidu的股票数据来自baidu的财经频道
http://stock.baidu.com/


==================================

2. 这个方法作者页面上说过不得转载,所以摘抄一段:
剩下的在(实际上是上面方法的Java版)

炒股有一段时间了,发现现在的股票行情软件在很多情况下并不是太好用,我炒股的时候喜欢看盘口的实时交易记录,如果同时关注多支股票的话,我用过的行情软件没有找到同时观看多支股票盘口交易数据的功能,另外在工作的时候使用目前的行情软件也不太方便。所以打算自己写个专门的行情软件,但是数据源是个最棘手的问题,经过搜索和不懈的努力,找到了两种方式:

  1. 通过webservice调用http://www.webxml.com.cn/zh_cn/web_services.aspx,该网站提供了免费的和收费的服务,但是免费的限制了每天的请求次数,在此不太实用。

调用sina专门的js服务器来解析数据,这种方式我使用了有很长一段时间,速度还是相当不错的,有时候比专门的行情软件的实时数据还快,下面是获取数据的部分代码:



3. 从新浪获取历史数据的方法:

http://blog.163.com/fluxray_sensor/blog/static/2965101520085213574929/


这几天在网上找股票的历史数据想研究研究,最后找到一个不错的接口,来自于雅虎,是在一个博客上找到的,地址为:http://www.bizeway.net/read.php?317 。不过这个不是我第一个找到的接口,最初始我是想直接解析新浪的历史交易页面,不过那个数据不是很全,只有大概近2个多月的数据。下面我把解析的脚本贴出来,主要是为了再次演示正则表达式的无穷魅力,因为解析的关键无疑是在一句正则表达式上!

stockCode=600000 url = "http://money.finance.sina.com.cn/corp/go.php/vMS_MarketHistory/stockid/{0}.phtml" -f  stockCode wc = New-Object System.Net.WebClient
content= wc.DownloadString($url)

$reg = "<a target='_blank'\s+href='http://biz.finance.sina.com.cn/stock/history_min.php\?symbol=sh\d{6}&date=\d{4}-\d{2}-\d{2}'>\s*([^\s]+)\s+\s*

\s*<td[^\d]*([^<]*)
\s+<td[^\d]*([^<]*)
\s+<td[^\d]*([^<]*)\s+<td[^\d]*([^<]*)\s+"
result=[RegEx]::matches( content, $reg)

foreach( itemin result)
{
     date= item.Groups[1].Value # 时间
     opening= item.Groups[2].Value # 开盘
     maxHigh= item.Groups[3].Value # 最高
     closing= item.Groups[4].Value # 收盘
     maxLow= item.Groups[5].Value # 最低
    Write-Host  date opening  maxHigh closing $maxLow
}


4. 编程获取所有股票的历史数据

http://hi.baidu.com/pinotwu/blog/item/0adb7b7bfc0f53e12f73b3e8.html


2010-03-24 02:22
上篇文章写的是投资组合的计算,其中用到的大量数据不太好找。各种免费的股票软件基本上也只能一次导出一只股票的历史价格,我不想傻傻地坐在电脑面前点鼠标点上十几二十个小时。

下面把获得方法详细写出来,希望对大家有用,对自己也是个记录。

查看了各大财经网站的情况后,发现yahoo能提供些不错的免费午餐。在yahoo财经上下载股票的“历史价格”时,能看到“XML数据下载”这一项。这比分页的HTML数据好解析多了。至于网上流行的sina股票数据接口嘛,不提供历史价格,只有当前价格(或者有我不知道)。点击链接,发现是:
http://yahoo.compass.cn/stock/xml/000001.ss_day.xml

很好。一看就明白。数据有:

<label ref="date">行情日期</label>
<label ref="open">开盘价</label>
<label ref="high">最高价</label>
<label ref="low">最低价</label>
<label ref="close">收盘价</label>
<label ref="volume">成交量</label>
<label ref="amount">成交额</label>

这下发达了!

使用python,很容易写出多线程的抓取网页程序。
线程库:threading
网页抓取:urllib2
XML解析:xml.dom
HTML解析:SGMLPaser

注意,由于数据较多,使抓取失败的因素是很多的,所以做好出错处理。一次抓不下来,我抓2次!我就是这么无耻地处理的:发现抓取失败,就循环他5次!谁让你提供了免费午餐?我有义务履行套利者的义务。用钱买数据?钱多烧的吧?(如果你发现哪款免费行情软件能下载所有股票的所有历史数据的,别告诉我)。

而在yahoo财经上,发现总市值不好抓取,不在其源代码中出现。用了ajax?也没找到相关的javascript代码。算了,对web技术咱也不太熟。

后来发现在baidu财经上提供的信息比较好抓取,就用它了。

至于公司代码嘛,一两千个,手工一个个查也很费劲。还好,交易所主页都能方便找到。这方面深交所比上交所做得好点,直接有EXCEL文件下载。

几经调试,OK。全抓下来了。相关python代码可点击下面的链接下载。
http://ishare.iask.sina.com.cn/f/7166441.html

友情附上上市公司代码文件。fetch_market_cap.py/ fetch_data.py是主程序,其它的是模块。具体见readme.

抓取来的数据都是CSV文件,用python/perl/awk/sed处理都方便至极。
买数据?笑话!将免费进行到底。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值