系统网址是: http://pnpstock.sinaapp.com/
系统结构如下
Crawl
股票数据是从网页上直接抓取过来的
经过调研: "http://hq.sinajs.cn/rn=6aqcc&list=xxxxxx,yyyyyy" 获得的数据还是比较好 parse的
比如用 http://hq.sinajs.cn/rn=6aqcc&list=sh600839,sz000825, 就将得到
var hq_str_sh600839="四川长虹,2.12,2.12,2.14,2.14,2.11 ...
var hq_str_sz000825="太钢不锈,3.22,3.24,3.24,3.24,3.21 ...
而我们要的实时股票数据,所以数据必须定时抓取(设定是每十分钟)
以前我的系统跑在 Window + Apache上,因此我在windows定义计划任务,才定时抓取。 新浪云支持 crontab, 更好实现了
抓取的数据存在 StockData 中
Statistics
抓取的数据必须整理
a) 合并到最基础每日股票数据中
b) 求20日的均值等统计信息
这其中有些技巧,因为20日是指的20个交易日,并不能简单在时间上-20天
c) 把股票筛选入库
这相