2020年04月_Rover Ramble

11月 09月 08月 07月 06月 05月 04月 03月 02月

原创彻底理解支持向量机(二)

线性SVM的对偶问题最大间隔的优化问题： min12∥ω∥2s.t. yi(ωTxi+b)≥1,i=1,...,nmin \frac{1}{2}\|\omega\|^2 \quad s.t.\, y_i(\omega^Tx_i + b) \ge 1, i=1,...,nmin21∥ω∥2s.t.yi(ωTxi+b)≥1,i=1,...,n这是一个凸二次优化问题，转化为拉格朗日对偶问...

2020-04-27 15:17:35 233

原创彻底理解支持向量机(一)

SVM学习的思想是求解能够正确划分训练数据集并且几何间隔最大的分离超平面。两类样本的情况，离分类面最近的样本到分类面的距离称为分类间隔，最优超平面又叫最大间隔超平面。支持向量就是决定最大间隔超平面的数据点。考虑二维空间中两条极端直线之间的间隔：line1: ω⋅x+b=1\omega \cdot x + b = 1ω⋅x+b=1 上有一点C1(0, (1-b)/w)line2: ω⋅x+...

2020-04-26 01:40:55 1358

原创深入浅出决策树算法

信息量：I(x)=−log2p(x)I(x) = -log_{2}p(x)I(x)=−log2p(x)0<=p(x)<=1, -log(p(x))是>=0且单调减的，所以信息量的大小和事件发生的概率成反比发生概率越高的事件，其所携带的信息量越低。信息熵用来衡量数据分布的混乱程度（不纯度）。信息熵是用来衡量事物不确定性的。信息熵越大，事物越具不确定性，把它搞清楚需...

2020-04-22 19:28:18 411

原创逻辑回归的原理推导

LR用于解决二分类问题。可以认为LR模型拟合的是z=w*x+b 这条直线(分类边界)，使得尽可能地将数据中的两个类别正确的分开。预测函数：hω(x)=g(ωTx)=11+e−ωTxh_{\omega}(x) = g(\omega^{T}x) = \frac{1}{1+e^{-\omega^{T}x}}hω(x)=g(ωTx)=1+e−ωTx10≤hω(x)≤10\le h_{\omega...

2020-04-21 19:39:05 214

原创 wide & deep Learning 实践

简单修改了官网的例子，并添加了一点点注释。主要是为了理解用法。https://github.com/tensorflow/models/tree/r1.9.0/official/wide_deeptf.__version__ == 1.9.0数据集是预测收入是否超过5万美元，二分类问题。下载数据集：def _download_and_clean_file(filename, ...

2020-04-20 17:59:33 278

原创卷积池化后-特征图大小的计算

featureMap的大小有什么规律，怎么计算呢？padding就是扩充图片，在输入图片外围补充一些像素点，并初始化为0。目的是保持feature map 不要太小。Tensorflow中的填充只有两种类型：SAME：是填充；VALID：是不填充。 # VALID 对应的是不填充，即不做任何处理。 # SAME 这种填充方式在strides=1的情况下，使得输出能够保...

2020-04-20 11:06:28 1249

1, GBDT与LR融合的原理：假设Tree1、Tree2为通过GBDT模型学出来的两颗树，x为一条输入样本，遍历两棵树后，x样本分别落到两颗树的叶子节点上，每个叶子节点对应LR一维特征，那么通过遍历树，就得到了该样本对应的所有LR特征。决策树的每个内部节点代表对某一属性的一次测试，每条边代表一个测试结果，叶节点代表某个类或类的分布。由于一棵树的每条路径，是通过最小化均方差等方法最终分割出来的...

2020-04-18 23:04:53 545

原创理解虚拟内存的作用

虚拟内存提供了三个重要的能力：缓存，内存管理，内存保护1. 虚拟内存可以结合磁盘和物理内存的优势为进程提供看起来速度足够快并且容量足够大的存储；2. 虚拟内存可以为进程提供独立的内存空间并引入多层的页表结构将虚拟内存翻译成物理内存，进程之间可以共享物理内存减少开销，也能简化程序的链接、装载以及内存分配过程；3. 虚拟内存可以控制进程对物理内存的访问(通过页表)，隔离不同进程的访问权限，提高系...

2020-04-17 17:49:06 2963

转载 LR的效果比GBDT的好？

高维稀疏特征的时候，lr 的效果会比 gbdt 好。为什么呢？假设有1w 个样本， y类别0和1，100维特征，其中10个样本都是类别1，而特征 f1的值为0，1，且刚好这10个样本的 f1特征值都为1，其余9990样本都为0(在高维稀疏的情况下这种情况很常见)，我们都知道这种情况在树模型的时候，很容易优化出含一个使用 f1为分裂节点的树直接将数据划分的很好，但是当测试的时候，却会发现效果很...

2020-04-16 16:11:13 584

原创 xgboost调参实践

xgboost调参笔记complete-guide-parameter-tuning-xgboostgithub code: Parameter_Tuning_XGBoost_with_Example中文翻译以二分类为例，主要思路就是用网格搜索做参数调优。数据源：如果找不到合适的二分类数据，可以用from sklearn.datasets import make_hastie_10_2...

2020-04-14 16:37:59 289 2

原创 XGBoost和GBDT的区别

大牛的总结如下：1. 传统GBDT以CART作为基分类器，XGBoost还支持线性分类器，这个时候XGBoost相当于带L1和L2正则化项的Logistic回归（分类问题）或者线性回归（回归问题）。2. 传统的GBDT只用了一阶导数信息（使用牛顿法的除外），而XGBoost对损失函数做了二阶泰勒展开。并且XGBoost支持自定义损失函数，只要损失函数一阶、二阶可导。3. XGBoost...

2020-04-01 11:56:00 6057

Hive用户指南(Hive_user_guide)_中文版.pdf

Hive用户指南，使用手册，简明扼要。内容包括架构、基本操作、参数设置、UDF，以及优化及使用技巧等等。

2020-07-28

Effective C++ 中文版

Effective C++ 精简版，经典名著你懂的

2014-12-22

Windows程序设计(王艳萍).pdf

Windows程序设计(王艳萍).pdf 王老师精讲

2014-12-22

DebugHacks深入调试.pdf

DebugHacks深入调试.pdf 电子书

2014-12-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

rover

原创彻底理解支持向量机(二)

原创彻底理解支持向量机(一)

原创深入浅出决策树算法

原创逻辑回归的原理推导

原创 wide & deep Learning 实践

原创卷积池化后-特征图大小的计算

原创 GBDT特征与LR融合

原创理解虚拟内存的作用

转载 LR的效果比GBDT的好？

原创 xgboost调参实践

原创 XGBoost和GBDT的区别

Hive用户指南(Hive_user_guide)_中文版.pdf

Effective C++ 中文版

Windows程序设计(王艳萍).pdf

DebugHacks深入调试.pdf

空空如也