Marina-ju-CSDN博客

原创 sklearn数据分析概览

一分析算法的选择二流程train_x,train_y,test_x,test_y = getData()model = somemodel()model.fit(train_x,train_y)predictions = model.predict(test_x)score = score_function(test_y,predictions)...

2020-04-27 08:18:14 542

转载高维多数据聚类（sklearn.cluster.affinityPropagation）和降维（manifold.LocallyLinearEmbedding）

一、聚类cluster.affinityPropagation适合高维、多数据快速聚类不需要指定最终聚类族的个数对数据的初始值不敏感对初始相似度矩阵数据的对称性没有要求和k-centers聚类方法相比，其结果的平方差误差较小原理：在开始时，将所有节点都看成是聚类中心，通过在样本对之间发消息知道收敛来创建聚类。然后使用少量实例样本作为聚类中心来描述数据集，聚类中心时数据集种最能代...

2020-04-25 14:57:19 3143

原创稀疏逆协方差矩阵估计（GraphicalLassonCV）

1.本方法适用于相关性不大的特征（对象）的相关行分析，同时，样本数量要比特征数量少。2.如果相关性比较大的话则适合用shrinkage covariance（缩放相关性分析）以下为sklearn官方解释：协方差矩阵的逆矩阵（精度矩阵）与偏相关矩阵正比例，即它能给出数据之间的部分关系。也就是说，如果在一定条件下，两个特征彼此独立，则它们的协方差矩阵的对应系数将为零。所以，通过从数据中学习...

2020-04-24 21:00:22 4795

原创期权定价公式的推导（欧式）

1.C=e−rTEQ[max(ST−K,0)]C = e^{-rT}E^{Q}[max(S_T-K,0)]C=e−rTEQ[max(ST−K,0)]又可以写为C=e−rTEQ[(ST−K)]IIST>=K](1)C = e^{-rT}E^{Q}[(S_T-K)]II_{S_T > =K }] \tag 1 C=e−rTEQ[(ST−K)]IIST>=K](1)其中QQ...

2020-04-15 17:46:10 7250

原创量化面试题及答案

3月份亏钱了，还有房贷，可是想来想去还是想做股票。也许这就叫做狗改不了吃屎。空仓，每天做一些题，加深理解，在此做个记录。对冲和复制问2.32：看跌期权可以用来做什么？答：对冲，投机，套利4月15日：要把握的是确定性（趋势），而不是被波动性牵着鼻子走The Greeks（期权价格的敏感度）问2.43：在给定计算价格的方法时，计算Greeks的方法都有哪些，各有那些优缺点？...

2020-04-15 17:22:39 7105

原创几个重要的凸集

1.任意线段{x0+θv∣θ⩾0}x0∈Rn,θ∈R,v∈Rn\{x_0 + \theta v | \theta \geqslant 0 \} x_0 \in R^n,\theta \in R,v \in R^n{x0+θv∣θ⩾0}x0∈Rn,θ∈R,v∈Rn2.超平面与半空间超平面（hyperplane）{X∣aTX=b},X,a∈Rn,b∈R,a≠0\{X|a^TX = b\},...

2020-04-13 18:58:54 429

原创凸优化基本概念-仿射集，凸集，凸锥

1）凸集，凸函数，凸优化仿射集例1：任何一个线性方程的解集一定是一个仿射集c={x∣AX=b},A∈Rm×n,b∈Rm,x∈Rnc=\{x|AX = b\},A \in R^{m\times n},b \in R^m,x \in R^nc={x∣AX=b},A∈Rm×n,b∈Rm,x∈Rn证明如下：∀X1,X2∈c\forall X_1,X_2 \in c∀X1,X2∈c,AX1=b...

2020-04-12 23:16:04 720

原创凸优化：一些简单的相关概念

一基本准则：1.有一个可解集合2.有一个寻找准则二数学语言如下：最小化方程式：f0(x)(1)f_0(x) \tag1f0(x)(1)限制条件： fi(x)<=bi,i=1,2,3,......m(2)f_i(x) <= b_i,i=1,2,3,......m\tag2fi(x)<=bi,i=1,2,3,......m(2)优化变量：X=[x1,x2,x...

2020-04-12 12:17:03 195

原创矩阵乘法

矩阵A.B=C,则CijC_{ij}Cij等于A中的i行乘以B中的j列.参考课程[a11a12a13a14a21a22a23a24a31a32a33a34](A) \left[ \begin{matrix} a11 & a12& a13&a14\\ a21 & a22 & a23 & a24 \\ a31 & a3...

2019-10-19 07:48:11 359

转载（Q-Q图）分位数图详解

一定义：设原序列为X=x1,x2,x3,......xNX = {x_1,x_2,x_3,......x_N}X=x1,x2,x3,......xN,分位数Qi=xi−mean(x)δQ_i = \frac{x_i - mean(x)}{\delta}Qi=δxi−mean(x)，其本质是某个值偏离均值的单位。二做法：三解图如果是在同一条线上，则样本分布和理论...

2019-10-12 21:58:57 7735

转载 python中import其他文件夹下的模块

如果要import不在同一个路径下的module，则需要先把这个module的路径添加进来。例如：

2019-09-19 15:32:01 6187 1

原创选股方法

注意：本文是课堂笔记，完全是为方便个人复盘记录的，没有方便大众的意图，不喜勿喷。1，2如图3.遗传算法（计算时所选数据不要超过3年）4.根据marchenko-pastur分布来干掉随机干扰项（第九课，1:41:31）...

2019-09-16 09:15:34 636

原创量化交易第9课笔记

线性函数:A⃗x⃗=λx⃗\vec{A} \vec{x} = \lambda \vec{x}Ax=λx的含义是经过A⃗\vec{A}A变化后得到的值仍然与向量X⃗\vec{X}X共线性并不是所有的X⃗\vec{X}X都满足这个等式。如果X⃗=X⃗T\vec{X} = \vec{X}^TX=XT,则X为对称阵。对称阵的特征值为实数。所有特征值对λi\lambda_iλi应的x⃗i\vec...

2019-09-15 21:57:11 295

转载 install quantopian时出现No module named pip.req的解决办法

参考：https://stackoverflow.com/questions/25192794/no-module-named-pip-req其中适用于我的解决办法：把setup.py中的

2019-09-06 16:04:12 3432

转载 python中去掉列表降维:ravel,flatten,reshape

1.ravel:2.flatten:3.reshape:

2019-09-02 22:05:31 4892

转载 ADF检验

一在python中的实现：import statsmodels.tsa.stattools as stmstm.adfuller（data,x, maxlag=None, regression=‘c’, autolag=‘AIC’, store=False, regresults=False)二背景知识补充：1.平稳性：假定某个时间序列是由一系列随机过程生成的，即假定时间序列xt(t...

2019-08-30 18:47:47 24533

原创 WOE,IV ,PSI，单变量PSI，KS值，capture rate

1.WOEWeight of Evidence,证据权重。要对一个变量进行WOE编码，需要首先把这个变量进行分组处理（离散化，分箱等）。分组后，对于第i组，这个组中响应客户站样本中所有响应客户的比例为pyip_{yi}pyipyi=yiyTp_{yi}=\frac{y_i}{y_T}pyi=yTyi这个组中未响应客户占所有未响应客户的比例为pnip_{ni}pnipni=ni...

2019-08-04 17:42:23 4571

原创 FM(factorization Machines)

《Factorization Machines》paper的阅读笔记，仅为了整理个人思路。个人觉得FM的本质就是预测值=偏置+权重1单变量+权重2变量之间的相互作用。偏置和权重都可以是标量，也可以是向量下面是本人认为重要的文章内容摘抄与翻译，能力有限，水平不足，不喜请绕道。一 FM的优点- 能够估计SVM所不能的稀疏矩阵的参数（FMs allow parameter estimatio...

2019-08-02 15:51:50 170

转载估算张量(Tensor.eval)与执行操作(Operation.run)

import tensorflow as tf#创建数据流图：y = Wx + b,其中，W和B为存储节点，x为数据节点x = tf.placeholder(tf.float32)W = tf.Variable(1.0)b = tf.Variable(1.0)y = Wx + bwith tf.Session() as sess:tf.global_variables_initial...

2019-07-24 22:07:02 323

转载 Momentum, RMSProp, Adam，自适应学习率

https://blog.csdn.net/willduan1/article/details/78070086上面这篇文章讲得很好

2019-07-12 10:32:53 751

转载 keras中的类ModelCheckpoint讲的比较通俗的文章

https://machinelearningmastery.com/check-point-deep-learning-models-keras/

2019-07-11 19:15:30 1143

原创 seven老师直播课笔记（7月9号，流水账式，没整理）

raw 数据——>能被学习的数据的过程：特征工程分类：离散的输出空间回归：连续的输出空间线性分类器：D维的空间映射到K维的空间的空间，W=W*D维向量的点积：其物理意义是计算两个变量之间的相关度和相似性softmax:输出的是概率空间yiy_iyi是一个独热编码列向量，yi^\hat{y_i}yi^也是列向量所以Li=−yi.log(yi^)L_i=-y_i.log(\...

2019-07-10 17:32:03 175

原创 7月5号线下课：集成学习（杨老师，流水账式，没整理）

同质集成：基学习器异质集成：组建学习器Boosting：串行学习，bias比较小Bagging：并行学习，variance比较小stacking：投票方法是学出来的，学：其实就是迭代，纠错，递归，集成学习一 wide（逻辑回归）&deep learning（深度学习）（Google）：wide：记忆性Generalization：泛化性平衡相关性和多样性特征工程一定是层...

2019-07-10 17:31:00 233

目标：argminxf(x)arg min_{x} f(x)argminxf(x),其中，g(x)=∇f(x),H(x)=∇∇f(x)g(x)=\nabla f(x), H(x)=\nabla \nabla f(x)g(x)=∇f(x),H(x)=∇∇f(x)1.梯度下降（Gradient Descent）:xk+1←xk−a.g(xk)x^{k+1} \leftarrow x^{k}-a....

2019-07-04 10:27:37 235

转载特征工程中的常用操作

1.数值型数据幅度缩放（最大最小值缩放，归一化…）离散化／分箱分桶（等距：pd.cut，等频：pd.qcut）（特征交叉）统计值（Max，min,quentile）四则运算（加减乘除）幅度变化（有一些模型对输入数据有分布建设，LR建设输入连续值特征符合正太分布）监督学习分箱（用决策树建模，用决策树学习连续值划分方式，把决策树中间节点取出来作为特征组合）2.类别型OneHot-...

2019-07-03 23:58:54 345

转载循环神经网络与应用

循环神经网络 RNN :循环神经网络，处理的是后续的输出与之前的内容有关联的任务。 RNN引入“记忆”的概念 “循环”2字来源于其每个源于都执行相同的任务，但是输出依赖于输入和“记忆”。NMT: neural machine translation一.场景与多种应用：模仿生成论文（生成序列）二.层级结构xtx_{t}xt是时间ttt处的输入StS_tSt是时...

2019-07-03 15:23:49 1928

转载卷积神经网络

一卷积神经网络层级结构保持了层级网络结构不同层次有不同形式（运算）与功能主要是以下层次：数据输入层/input layer三种常见的数据处理方式去均值：把输入数据各个维度都中心化到0归一化：幅度归一化到同样的范围PCA/白化：用PCA降维，白化是对数据每个特征轴上的幅度归一化卷积计算层/CONV layer局部关联：每个神经元看作一个filter窗口（receptive...

2019-07-02 10:10:18 109

转载机器学习工具包链接

1.sklearn:https://scikit-learn.org/stable/modules/classes.html#module-sklearn.discriminant_analysis2.lightgbmhttps://lightgbm.readthedocs.io/en/latest/Python-API.html#training-api

2019-07-02 08:11:19 390

转载很赞的讲神经网络BP的文章

有多赞呢，我觉得看完后几乎不需要看书了～https://www.zybuluo.com/hanbingtao/note/433855

2019-06-28 21:16:19 687

翻译神经网络之传递函数(sigmoid ,双S)

1.S函数(sigmoid)f(x)=11+e−xf(x)=\frac{1}{1+e^{-x}}f(x)=1+e−x12.双S函数f(x)=1−e−x1+e−xf(x)=\frac{1-e^{-x}}{1+e^{-x}}f(x)=1+e−x1−e−x

2019-06-27 16:26:01 5929

转载交叉熵损失函数（softmax分类器）

对于训练集中第iii张图片数据xix_ixi，在WWW下会有一个得分结果向量fyif_{y_i}fyi,则损失函数几座Li=−log(efyi∑jefj)L_i=-log(\frac{e^{f_{y_i}}}{\sum_j e^{f_j}})Li=−log(∑jefjefyi)或者Li=−fyi+log∑jefiL_i=-f_{y_i}+log\sum_{j}{e^{f_i}...

2019-06-27 13:50:32 3704

转载 hinge loss（损失函数）详解

hinge loss：支持向量机损失函数1.对于训练集中的第iii张图片数据xix_ixi,在WWW下会有一个得分结果向量f(xi,W)f(x_i,W)f(xi,W);2.第jjj类的得分我们记作f(xi,W)jf(x_i,W)_jf(xi,W)j;3.则在该样本上的损失，我们由下列的公式可以计算得到(1)Li=∑j≠yimax(0,f(xi,W)j−f(xi,W)yi+△)L_i=...

2019-06-27 12:33:35 14015

原创 Markdown(Latex)中的数学公式

本图由七月在线的学习资料转化而来b

2019-06-27 11:45:13 624

转载控制树模型过拟合的方式

1.增加样本量2.控制模型复杂度，比如限制最大树深，限制最小叶子结点样本量，结点进行分裂的样本最小值3.学习率4.阈值限定，比如信息增益小于某个值，停止增长5.交叉验证，如果验证集熵目标函数下降变缓慢或开始上升，则停止6.剪纸PS：来自七月在线作业题...

2019-06-25 12:47:54 523

原创 6月24 七月在线直播课笔记（流水账式，非技术，没归类）

仅对老师课堂上说的注意点之类的做了记录：1.一定要看case，以便了解模型预估咋哪里出现了什么问题导致AUC降低2.所有的问题尽可能转化为分类问题，少去做回归例如：大于0.5，标为1，反之，标为0.连续数值的label转为离散类别来做。3.无监督学习K-means：文本聚类plsalda4.PCA：降维，选择前面n个feature。算法工程师：工业界有数据作弊的情况（刷单，设...

2019-06-24 22:53:08 182

原创分裂前后增益计算方法

ID3->信息增益C4.5->信息增益比CART->采用Gini系数XG Boost->L~∗=−12∑j=1TGj2Hj+λ+γT\tilde{L}^*=-\frac{1}{2}\sum_{j=1}^{T}\frac{G_{j}^2}{H_j+\lambda}+\gamma TL~∗=−21∑j=1THj+λGj2+γT...

2019-06-23 17:18:31 1320

转载机器学习原理概图

本图来自7月在线，仅方便个人学习上传的

2019-06-23 17:09:42 863

原创梯度提升树（Gradient Boosting Tree）算法原理

一计算过程：输入： *(xi,yi),T,L(x_i,y_i),T,L(xi,yi),T,L1.初始化f0f_0f02.for t=1 to T do2.1. 计算响应：yi^=−[∂L(yi,F(xi))∂F(xi)]F(x)=Ft−1(x)\hat{y_i}=-[\frac{\partial L(y_i,F(x_i))} {\partial F(x_i)}]_{F(x)=F_{...

2019-06-22 12:29:55 3817

原创最大似然函数，琴生不等式

1.最大似然函数定义Y={y1,y2,…yn}p(y1,y2,…yn)=p(y1)p(y2)…p(yn)即y1,y2,…yn为独立同分布似然函数：likelihood=∏j=1Np(yi)\prod_{j=1}^{N}p(y_i)∏j=1Np(yi)Lδ=∏j=1Npδ(yi)L_\delta=\prod_{j=1}^{N}p_\delta(y_i)Lδ=∏j=1Npδ(yi...

2019-06-19 10:35:16 615

Q Q Plots_ Simple Definition & Example - Statistics How To.pdf

空空如也