野生六边形科技金融战士-CSDN博客

原创神经网络-

单层的感知机能力有限，需要多层的神经网络才能完成复杂的任务。其中代表之一是误差逆传播即BP神经网络。如上图设计的参数有：隐层接受的输入、输出层接受的输入；输入层的输出、隐层的输出、输出层的输出；各层间的连接权；以及各层的阈值。一共有dq个输入到隐层的权值、ql个隐层到输出层的权值、q个隐层神经元阈值、l个输出层神经元阈值。输出的表达式如下：BP是迭代学习算法，具体的是采用梯度下降的方法以w为例：其中对梯度的计算可以进行如下分解：于是根据上式w的迭代公司可写为学习率gbh （b为上

2021-05-30 22:55:53 323 1

原创正则表达式

python自带find、startwith、startend来对字符串进行搜索。python自带的re模块，使用方法是先建立pattern对象，考虑是否要用r’ ‘表示原字符串，不用转意。然后就取要搜寻的字符串match，找到了就会反馈结果。pattern对象[a-z]匹配字符集，匹配a-z中所有的字母。同理[a-zA-Z0-9]就可以匹配所有的小写字母、大写字母和数字，效果等同于\w，\W能匹配如空格等非单词字符。...

2021-05-02 10:49:13 78

原创人工特征工程

人工特征工程

2021-04-27 15:41:36 337

原创 gbdt & xgboost

gbdt全称为grandient boosting decision tree。与adaboostingadaboosting是通过对模型权重和样本权重的调整实现对误差的拟合不同的是，gbdt核心是希望损失函数能不断的减小，和尽可能快的减小。具体的做法就是让损失函数沿着梯度的方向下降。为了实现残差即损失函数的不断缩小用损失函数的负梯度作为残差的近似值：...

2021-04-25 16:42:42 106

原创集成学习_Bagging 随机森林

与Boosting不同，Bagging是通过对训练数据划分，让不同模型使用不同训练集来实现学习器的差异。Bagging采用自助采样的方法：即采用有放回采样，有些样本会重复出现，同时也能包含63.2%的样本。不同采样样本集保证了差异。随机森林是在bagging的基础上引入了特征的随机：参数k为随机选择的特征数，推荐值为k=log2d随着分类器数量的增加，RF的错误率显著下降到一定的数量后趋于稳定。...

2021-04-25 14:39:52 75

原创集成学习——AdaBoosting

集成学习即结合多个学习器来完成学习任务。一般个体学习器是弱学习器，如决策树、神经网络等。为了避免把好坏不一的模型组合的结果比最好的个体学习器差，每个学习器应该有多样性，即好而不同。集合学习的利率证明：对于单个分类器hi，其错误率如下：对于T个分类器，如果超半数分类为正确，则最终分类为正确。可见随着T增加，错误率会指数级下降，最终趋于0。然而前提条件是分离器的误差相互独立，针对这个问题，现有的集成学习方法分为两类：1、串行生成的Boosting。 2、并行的Bagging和随机森林。

2021-04-23 18:10:46 268

原创 SVM

支持向量即用一个超平面去分类，需要样本是线性可分的。求解的超平面应是距离各类样本的距离最大，超平面的公式：公式图片截取自西瓜书任意点到超平面的距离：对于距离超平面最近的点有：（上式的等号成立）结合上式获得目标函数：最大化间距和实现分类为了求解上式，进行化简，使用拉格朗日乘子法得到对偶问题，偏导代入后得：上式需满足KKT条件才能满足分类条件（距离大于1）&只取最近的点（对应3式）对于α的求解使用二次规划算法：一直化简到二次规划有闭式解。此处求出α后再代入上式

2021-04-20 12:07:26 54

原创多重共线性问题

多重共线性指自变量间有现象关系，这会导致模型不稳定，因为建模没有考虑到每个变量间的线性关系。但是适当的共线性是可行的比如衍生变量。多重共线性还会导致的问题是只有线性相关的一类变量入模了，其他维度的变量被挡在了外面。多重共线性的监测1、可将自变量逐一作为因变量做线性回归，其中R2R^{2}R2高的说明有多重共线性问题。R2R^{2}R2=SSR/SSE，预测与均值的差/真实值与均值的差。2、VIF = 1/1- R2R^{2}R2 ,VIF大于10说明共线性严重。解决办法1、手动去除2、逐步回归法

2021-04-17 23:35:02 2252

原创信贷申请评分卡1

1、确定建卡目标：区分申请的用户是好用户还是坏用户。2、好坏用户定义：灵活设定，如逾期30天以上的为坏用户。这里还涉及表现期和观察期的问题，观察期是你选用哪个时段的样本入模，此处选择2018年全年作为观察期。表现期顾名思义就是用户借款后逾期表现多久趋于稳定，根据vintage分析，小微客户一般在放款后8~12月状态稳定。对于选择逾期多少天以后的作为坏客户除了定性的与业务部门商定外，可以进行定量分析，建立滚动率二维分析表，观察起始点每个账龄在6个月后的迁徙情况，对于滚动有坏件率依然很高的账龄确定为坏用户，逾

2021-04-12 18:10:34 157 1

原创时间序列分析

研究数据随时间变化，无其他可控自变量的情况。无法确定主要变量因素或无法获得其数据的情况下，有时间序列就可以使用时间序列分析。步骤：一、检验数据平稳性，不平稳的要做log处理使其平稳。平稳性就是要时间序列像白噪声一样分布去掉趋势和大的波动。（为什么要平稳）如何判断时间序列是否平稳：1、观察法。2、自相关（同一事件不同时间的相关性）和偏自相关（去除中间变量影响后的相关系数，简单的理解为不把中间量计入均值）。3、ADF检验（就是单位根检验，假设是有单位根即非平稳，检验P值是否小于0.05，具体单位根的数学原

2021-04-06 18:59:11 811

原创 Python中的Doc String

写函数时doc string能编辑说明文档，可通过help（函数名）调用。未完成

2021-04-06 14:10:39 78

weixin_38424091的博客