- 博客(16)
- 资源 (9)
- 收藏
- 关注
原创 ldcTree Python实现
最近看了论文Multi-Level Deep Cascade Trees for Conversion Rate Prediction发现作者没有开源相关代码,就自己试着写了一下核心思想就是把上一层GBDT每棵树的交叉熵输出作为下一层的输入核心代码如下 def gen_new_train_X(self, X, y, gb_classifier): # 保存一个用于寻找...
2018-12-02 09:42:39 250
原创 axure使用技巧
rp图使用技巧矩形+颜色填充+文字左对齐2、矩形+文本框(设置隐藏边框和只读)+提交按钮3、ICON+矩形+按钮4、表格+复选框5、动态面板(https://jingyan.baidu.com/article/aa6a2c14956d3f0d4c19c4a9.html)6、当动态面板遮住其他元素时,可先把动态面板置于底层,所有工作完成后再设置为顶层7、...
2018-10-21 22:08:13 468 1
原创 RF、GBDT、XGBoost、LightGBM比较
RF、GBDT和XGBoost、LightGBM都属于集成学习(Ensemble Learning),集成学习的目的是通过结合多个基学习器的预测结果来改善单个学习器的泛化能力和鲁棒性。根据个体学习器的生成方式,目前的集成学习方法大致分为两大类:即个体学习器之间存在强依赖关系、必须串行生成的序列化方法,以及个体学习器间不存在强依赖关系、可同时生成的并行化方法;前者的代表就是Boosting,后者...
2018-07-25 20:39:41 566
转载 支持向量机(四)
4、使用松弛变量处理 outliers 方法在最开始讨论支持向量机的时候,我们就假定,数据是线性可分的,亦即我们可以找到一个可行的超平面将数据完全分开。后来为了处理非线性数据,使用 Kernel 方法对原来的线性 SVM 进行了推广,使得非线性的的情况也能处理。虽然通过映射将原始数据映射到高维空间之后,能够线性分隔的概率大大增加,但是对于某些情况还是很难处理。例如可能并不是因为数据本身是非线性结构...
2018-06-07 10:49:56 268
转载 支持向量机(三)
3.1、线性不可分的情况关于我们的超平面,对一个数据点进行分类,实际上是通过把x代入到算出结果,然后根据其正负号来进行类别划分的。在前面的推导中我们得到:因此分类函数为:这里的形式的有趣之处在于,对于新点 x的预测,只需要计算它与训练数据点的内积即可(表示向量内积),这一点至关重要,是之后使用 Kernel 进行非线性推广的基本前提。此外,所谓 Supporting Vector也在这里显示出来—...
2018-06-06 20:48:08 560
转载 支持向量机(二)
2.1、原始问题转为对偶问题接着考虑之前得到的目标函数:由于求的最大值相当于求的最小值,所以上述目标函数等价于(w由分母变成分子,从而也有原来的max问题变为min问题,很明显,两者问题等价):因为现在的目标函数是二次凸函数的,约束条件是线性的,所以它是一个凸二次规划问题。通过拉格朗日函数将约束条件融合到目标函数里去,从而只用一个函数表达式便能清楚的表达出我们的问题。然后令容易验证,当某个约束条件...
2018-06-06 16:05:30 265
转载 拉格朗日乘数法与对偶性
1.1、定义拉格朗日乘数法通过引入拉格朗日乘子,可将有 d 个变量与 k 个约束条件的极值问题(最优化问题)转化为具有 d+k 个变量的无约束优化问题。先放两张图有助于后面的理解1.2、等式约束假设x为d维向量,欲寻找x的最优值x∗,使目标函数f(x)最小且同时满足g(x)=0的约束。引出拉格朗日函数由于f(x)是凸函数,也就是x*是唯一的,可以通过下面2个式子来求x∗。g(x*)=0因此,原约束...
2018-06-05 15:30:33 1097 3
原创 凸优化相关概念
凸集定义:其几何意义表示为:如果集合C中任意2个元素连线上的点也在集合C中,则C为凸集。其示意图如下所示: 凸函数定义:其几何意义表示为函数任意两点连线上的值大于对应自变量处的函数值,示意图如下: 仿射函数仿射函数即由 1 阶多项式构成的函数,一般形式为f(x)=Ax+b 线性函数线性函数是过原点的仿射函数,一般形式为f(x)=Ax 凸优化定义:“凸优化” 是指一种比较特殊的优化,是指求取最小值的...
2018-06-04 16:08:47 397 1
转载 支持向量机(一)
1.1、线性分类的例子如下图所示,现在有一个二维平面,平面上有两种不同的数据,分别用圈和叉表示。由于这些数据是线性可分的,所以可以用一条直线将这两类数据分开,这条直线就相当于一个超平面,超平面一边的数据点所对应的y全是-1 ,另一边所对应的y全是1。这个超平面可以用分类函数表示,当f(x) 等于0的时候,x便是位于超平面上的点,而f(x)大于0的点对应 y=1 的数据点,f(x)小于0的点对应y=...
2018-06-02 16:35:57 390 1
转载 逻辑回归总结
1、定义1.1、定义 简单来说, 逻辑回归(Logistic Regression)是一种用于解决二分类(0 or 1)问题的机器学习方法,用于估计某种事物的可能性。比如某用户购买某商品的可能性,某病人患有某种疾病的可能性,以及某广告被用户点击的可能性等。1.2、逻辑回归与线性回归的关系 逻辑回归(Logistic Regression)与线性回归(Linear Regre...
2018-05-31 20:56:50 490 2
原创 归一化与标准化
1、定义归一化(normalization): 标准化(standardization):其中μ和σ代表样本的均值和标准差,max(x)为最大值,min(x)为最小值。2、区别2.1、归一化:缩放仅仅跟最大、最小值的差别有关。标准化:缩放和每个点都有关系,通过方差(variance)体现出来。与归一化对比,标准化中所有数据点都有贡献(通过均值和标准差造成影响)。2.2、归一化: 输出范围在0-1之...
2018-05-30 10:09:10 1191 1
转载 线性回归总结
在介绍线性回归前,先介绍下一些会用到的相关概念。满秩矩阵矩阵的秩的定义:用初等行变换将矩阵A化为阶梯形矩阵, 则矩阵中非零行的个数就定义为这个矩阵的秩, 记为r(A),根据这个定义, 矩阵的秩可以通过初等行变换求得。需要注意的是, 矩阵的阶梯形并不是唯一的, 但是阶梯形中非零行的个数总是一致的。满秩矩阵的定义:设A是n阶矩阵, 若r(A) = n, 则称A为满秩矩阵。满秩矩阵是一个很重要的概念, ...
2018-05-24 15:53:51 1070 3
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人