因子分析学习笔记

因子分析

1 寻找因子 (提取特征)
2 拟合
3 检验
4 修改因子
本质上为线性回归模型

1.模型

y = θ T x y=\theta^T x y=θTx
\quad θ , x \theta,x θ,x均为向量
最小二乘回归:
\quad L o s s = 1 m ∑ ( y − y ^ ) 2 Loss=\frac{1}{m}\sum(y-\hat y)^2 Loss=m1(yy^)2
岭回归 L2正则化:
\quad L o s s = 1 m ∑ ( y − y ^ ) 2 + λ ∑ θ 2 Loss=\frac{1}{m}\sum(y-\hat y)^2+\lambda \sum\theta^2 Loss=m1(yy^)2+λθ2
Lasso回归 L1正则化:
\quad L o s s = 1 m ∑ ( y − y ^ ) 2 + λ ∑ ∣ θ ∣ Loss=\frac{1}{m}\sum(y-\hat y)^2+\lambda \sum|\theta| Loss=m1(yy^)2+λθ

从优化角度看是为了防止过拟合,加入对参数 θ \theta θ的约束,L1正则化可以降维(画图理解,菱形与圆形相交),L2(圆形与圆形相交)不可。

2. 数据预处理

2.1异常值处理

异常值种类
\quad 极端值
\quad 缺失值
\quad 较大值
绝对值差中位数法MAD:
\quad 找出中位数Xmedian
\quad 计算绝对偏差Xi-Xmedian
\quad 得到绝对偏差的中位数MAD
\quad 确定参数n,确定合理范围[Xmedian-nMAD,Xmedian+nMAD]
在合理范围之内的数为原值,超出合理范围的用邻近边界值代替。
3 σ \sigma σ
正太分布原理 三标准区间面积99.7% 之外认为时异常值,邻近边界值代替
百分比法
又称分位数,原理略

2.2标准化处理

标准化: x − μ σ \frac{x-\mu}{\sigma} σxμ
归一化: x − m i n m a x − m i n \frac{x-min}{max-min} maxminxmin

2.3数据缺失处理

丢弃
修补 :插值修补或者拟合修补

2.4因子中性化

去除因子中已知因子对该因子的结果的影响
平移到原点 (意义呢?)
市值中性化
行业中性化
y = a x + b ( x , y ) y=ax+b (x,y) y=ax+b(x,y)
b = y − a x ( x , b ) b=y-ax (x,b) b=yax(x,b)

3有效性检验

因为线性模型 ,所以相关性只有一种

3.1 IC/IR

IC information coefficient 相关系数
norm ic
rank ic
IR ic 平均值/ic标准差
表示因子稳定性

3.2 分层法

对某个因子按顺序进行分层,最底层 最高层 进行收益率对比 头部曲线 尾部曲线

单因子分析

多因子分析

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值