机器学习与量化交易∙笔记(3)

  • 数据存储方式

    • .csv
    • NoSQL 存储文本
    • SQL 跟时间序列有关的金融数据
  • 数据格式

    • 交易所信息:上交所、深交所、标普
    • 数据来源
    • Ticker/sumbol
    • 价格
    • 企业行为(stock split/dividend adjustments)
    • 国家假日
  • 数据关注点:容易出错的地方

    • 企业行为
    • spikes用相关滤波器过滤噪点
    • 缺失数据
  • MySql数据库基础用法

  • 设计股票EOD数据的表

    • Exchange
    • DataVendor
    • Symbol
    • DailyPrice
  • 机器学习通俗理解

    • kernel与相似度

      在机器学习中,kernel与相似度是混合着用的。

      大部分的核的本质,是计算两个输入的相似度。

  • 时间序列分析

    时间序列分析比较偏传统的计量经济学。相比古老传统。与机器学习相比,在三五十个点(很小的数据量)上就可以做的。

    金融与计量经济领域的quant偏向于时间序列分析;机器学习是另一种做quant的手段,与时间序列分析是并列的一种手段。

    在获取读取数据的水平之后,最容易上手的是时间序列分析。时间序列分为两大类:

    1. Mean均值 如果时间序列是平稳的,有一个均值,产品价格围绕均值操作。

      如果是随机游走,下一刻的状态没法根据过往判断,那就没法在证券市场赚钱。单只股票的价格很可能就是随机游走。

      但是一个股票组合,可能不是随机游走的,也就有了研究的必要。

      • Mean Reversion and Ornstein-Uhlenbeck process
        • ADF Test
        • Hurst Exponent
      • Cointegrated Augmented Dickey-Fuller Test
    2. Momentum动量

    具体参见:《时间序列分析与量化交易(1)》

  • Machine learning:A different Approach

Y = f ( x ) + e Y=f(x) + e Y=f(x)+e

所有监督式机器学习,都可以看作:

  1. 有了一个对 x ( x 1 , x 2 , x 3 . . . x n ) x(x_1,x_2,x_3...x_n) x(x1,x2,x3...xn)feature的定义
  2. 有足够data
  3. 确定一个model
  4. 学出一个最好的Model

常用的Model:

  1. Logistic Regression:分类
  2. SVM:both(分类、回归)。目标是找到最大分离界面
  3. Random Forest:both(分类、回归)
  4. LSTM(高级的RNN。能用HMM的都可以用LSTM):both(分类、回归)
  5. Lasso.可以自动选择feature,对于脏数据是比较好的;但是如果是一个已经选好feature的数据,就不适合了。

正则化是针对模型而言;归一化是针对数据而言。

统计学中的大数定律,30个点就可以算是大数。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值