因子分析学习笔记

最新推荐文章于 2023-08-09 23:25:31 发布

deeeeeeplearning

最新推荐文章于 2023-08-09 23:25:31 发布

阅读量606

点赞数

分类专栏： machine learning

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_42153494/article/details/105363375

版权

machine learning 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

因子分析

1 寻找因子（提取特征）
2 拟合
3 检验
4 修改因子
本质上为线性回归模型

1.模型

$y=\theta^T x$
$\quad$ $\theta,x$ 均为向量
最小二乘回归:
$\quad$ $Loss=\frac{1}{m}\sum(y-\hat y)^2$
岭回归 L2正则化:
$\quad$ $Loss=\frac{1}{m}\sum(y-\hat y)^2+\lambda \sum\theta^2$
Lasso回归 L1正则化:
$\quad$ $Loss=\frac{1}{m}\sum(y-\hat y)^2+\lambda \sum|\theta|$

从优化角度看是为了防止过拟合，加入对参数 $\theta$ 的约束,L1正则化可以降维（画图理解，菱形与圆形相交），L2（圆形与圆形相交）不可。

2. 数据预处理

2.1异常值处理

异常值种类
$\quad$ 极端值
$\quad$ 缺失值
$\quad$ 较大值
绝对值差中位数法MAD:
$\quad$ 找出中位数Xmedian
$\quad$ 计算绝对偏差Xi-Xmedian
$\quad$ 得到绝对偏差的中位数MAD
$\quad$ 确定参数n,确定合理范围[Xmedian-nMAD,Xmedian+nMAD]
在合理范围之内的数为原值，超出合理范围的用邻近边界值代替。
3 $\sigma$ 法
正太分布原理三标准区间面积99.7% 之外认为时异常值，邻近边界值代替
百分比法
又称分位数，原理略

2.2标准化处理

标准化： $\frac{x-\mu}{\sigma}$
归一化： $\frac{x-min}{max-min}$

2.3数据缺失处理

丢弃
修补：插值修补或者拟合修补

2.4因子中性化

去除因子中已知因子对该因子的结果的影响
平移到原点 (意义呢？)
市值中性化
行业中性化
$y = a x + b (x, y)$
$b = y - a x (x, b)$

3有效性检验

因为线性模型，所以相关性只有一种

3.1 IC/IR

IC information coefficient 相关系数
norm ic
rank ic
IR ic 平均值/ic标准差
表示因子稳定性

3.2 分层法

对某个因子按顺序进行分层,最底层最高层进行收益率对比头部曲线尾部曲线

单因子分析

多因子分析

deeeeeeplearning

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
因子分析学习笔记

因子分析1 寻找因子（提取特征）2 拟合3 检验4 修改因子本质上为线性回归模型1.模型y=θTxy=\theta^T xy=θTx\quadθ,x\theta,xθ,x均为向量最小二乘回归:\quad Loss=1m∑(y−y^)2Loss=\frac{1}{m}\sum(y-\hat y)^2Loss=m1∑(y−y^)2岭回归 L2正则化:\quad Loss=...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。