-
数据存储方式
- .csv
- NoSQL 存储文本
- SQL 跟时间序列有关的金融数据
-
数据格式
- 交易所信息:上交所、深交所、标普
- 数据来源
- Ticker/sumbol
- 价格
- 企业行为(stock split/dividend adjustments)
- 国家假日
-
数据关注点:容易出错的地方
- 企业行为
- spikes用相关滤波器过滤噪点
- 缺失数据
-
MySql数据库基础用法
-
设计股票EOD数据的表
- Exchange
- DataVendor
- Symbol
- DailyPrice
-
机器学习通俗理解
-
kernel与相似度
在机器学习中,kernel与相似度是混合着用的。
大部分的核的本质,是计算两个输入的相似度。
-
-
时间序列分析
时间序列分析比较偏传统的计量经济学。相比古老传统。与机器学习相比,在三五十个点(很小的数据量)上就可以做的。
金融与计量经济领域的quant偏向于时间序列分析;机器学习是另一种做quant的手段,与时间序列分析是并列的一种手段。
在获取读取数据的水平之后,最容易上手的是时间序列分析。时间序列分为两大类:
-
Mean均值
如果时间序列是平稳的,有一个均值,产品价格围绕均值操作。如果是随机游走,下一刻的状态没法根据过往判断,那就没法在证券市场赚钱。单只股票的价格很可能就是随机游走。
但是一个股票组合,可能不是随机游走的,也就有了研究的必要。
- Mean Reversion and Ornstein-Uhlenbeck process
- ADF Test
- Hurst Exponent
- Cointegrated Augmented Dickey-Fuller Test
- Mean Reversion and Ornstein-Uhlenbeck process
-
Momentum动量
具体参见:《时间序列分析与量化交易(1)》
-
-
Machine learning:A different Approach
Y = f ( x ) + e Y=f(x) + e Y=f(x)+e
所有监督式机器学习,都可以看作:
- 有了一个对 x ( x 1 , x 2 , x 3 . . . x n ) x(x_1,x_2,x_3...x_n) x(x1,x2,x3...xn)feature的定义
- 有足够data
- 确定一个model
- 学出一个最好的Model
常用的Model:
- Logistic Regression:分类
- SVM:both(分类、回归)。目标是找到最大分离界面
- Random Forest:both(分类、回归)
- LSTM(高级的RNN。能用HMM的都可以用LSTM):both(分类、回归)
- Lasso.可以自动选择feature,对于脏数据是比较好的;但是如果是一个已经选好feature的数据,就不适合了。
正则化是针对模型而言;归一化是针对数据而言。
统计学中的大数定律,30个点就可以算是大数。