因子分析
1 寻找因子 (提取特征)
2 拟合
3 检验
4 修改因子
本质上为线性回归模型
1.模型
y
=
θ
T
x
y=\theta^T x
y=θTx
\quad
θ
,
x
\theta,x
θ,x均为向量
最小二乘回归:
\quad
L
o
s
s
=
1
m
∑
(
y
−
y
^
)
2
Loss=\frac{1}{m}\sum(y-\hat y)^2
Loss=m1∑(y−y^)2
岭回归 L2正则化:
\quad
L
o
s
s
=
1
m
∑
(
y
−
y
^
)
2
+
λ
∑
θ
2
Loss=\frac{1}{m}\sum(y-\hat y)^2+\lambda \sum\theta^2
Loss=m1∑(y−y^)2+λ∑θ2
Lasso回归 L1正则化:
\quad
L
o
s
s
=
1
m
∑
(
y
−
y
^
)
2
+
λ
∑
∣
θ
∣
Loss=\frac{1}{m}\sum(y-\hat y)^2+\lambda \sum|\theta|
Loss=m1∑(y−y^)2+λ∑∣θ∣
从优化角度看是为了防止过拟合,加入对参数 θ \theta θ的约束,L1正则化可以降维(画图理解,菱形与圆形相交),L2(圆形与圆形相交)不可。
2. 数据预处理
2.1异常值处理
异常值种类
\quad
极端值
\quad
缺失值
\quad
较大值
绝对值差中位数法MAD:
\quad
找出中位数Xmedian
\quad
计算绝对偏差Xi-Xmedian
\quad
得到绝对偏差的中位数MAD
\quad
确定参数n,确定合理范围[Xmedian-nMAD,Xmedian+nMAD]
在合理范围之内的数为原值,超出合理范围的用邻近边界值代替。
3
σ
\sigma
σ法
正太分布原理 三标准区间面积99.7% 之外认为时异常值,邻近边界值代替
百分比法
又称分位数,原理略
2.2标准化处理
标准化:
x
−
μ
σ
\frac{x-\mu}{\sigma}
σx−μ
归一化:
x
−
m
i
n
m
a
x
−
m
i
n
\frac{x-min}{max-min}
max−minx−min
2.3数据缺失处理
丢弃
修补 :插值修补或者拟合修补
2.4因子中性化
去除因子中已知因子对该因子的结果的影响
平移到原点 (意义呢?)
市值中性化
行业中性化
y
=
a
x
+
b
(
x
,
y
)
y=ax+b (x,y)
y=ax+b(x,y)
b
=
y
−
a
x
(
x
,
b
)
b=y-ax (x,b)
b=y−ax(x,b)
3有效性检验
因为线性模型 ,所以相关性只有一种
3.1 IC/IR
IC information coefficient 相关系数
norm ic
rank ic
IR ic 平均值/ic标准差
表示因子稳定性
3.2 分层法
对某个因子按顺序进行分层,最底层 最高层 进行收益率对比 头部曲线 尾部曲线