- 博客(15)
- 资源 (2)
- 收藏
- 关注
原创 核函数的理解
问题的提出一些分类问题,如果对于一些原理上就有缺陷的分类器(对,没错,就是以样本为线性可分为基础所提出的理论推导的分类器)来说,如果样本是线性不可分,那么就麻烦了。原本的理论就不适用了。但是,人们想出了一个办法,把这个问题转化的很巧妙。人们想,是不是可以将原始空间中的点映射到一个更高维度的特征空间上去,使得样本在这个特征空间内线性可分呢?答案是可以的。貌似已经证明了如果原始空间是有限维度的,即属性是
2018-03-09 21:48:39 1303
原创 解决:centos7镜像创建的容器里面安装服务后,无法使用命令启动服务
这是centos7镜像的bug,是客观存在的(默默流泪) 但是这是有解决办法的,尝试了一些方法之后,选择了这个方法,亲测好用!解决方法:1、首先要先将将你的CMD或者entrypoint设置为/usr/sbin/init,但是其他的命令也必不可少,shell代码如下:docker run -d -e "container=docker" --privileged=true -v /sys/fs/c
2017-10-31 10:40:04 2958 1
原创 centos解决bash: service: command not found 错误
centos解决bash: service: command not found 错误在centos系统中,如果/sbin目录下没有service这个命令,就会出现bash: service: command not found解决步骤如下: 1、 输入yum list | grep initscripts会出现:initscripts.x86_64(其实一共有三个信息,但是后面根据版本不同,显示
2017-10-31 10:14:58 68965 10
转载 损失函数优化方法
梯度下降法梯度下降法是求解无约束最优化问题的一种最常用方法,有实现简单的优点。它是一种迭代算法,每一步需要求解的目标函数的梯度向量。假设 f(x)f(x) 是 Rn\mathbf R^n 上具有一阶连续偏导数的函数。要求解的无约束最优化问题是:minx∈Rnf(x)\min_{x \in \mathbf R^n} f(x)x∗x^* 表示目标函数 f(x)f(x) 的极小点。由于负梯度方向是使函数值
2017-10-02 22:29:27 4773
原创 Hadoop实现全排序要点及基本框架
MapReduce实现全排序要点有两种方式,一种是继承 WritableComparable 接口,另一种是实现自己的比较器 Comparator。WritableComparable 接口所有的 Mappers 和 Reducers 进程中的对象都必须实现一个特定的接口:Writable 接口。另外,Reducer 端的 Key 要实现 WritableComparable 实例。Writable
2017-08-29 19:26:21 364
原创 Bagging与随机森林
Bagging与随机森林Bagging自助法(bootstrapping)给定包含mm个样本的数据集 DD,我们对它进行采样产生数据集 D′D':每次随机从 DD 中挑选一个样本,将其拷贝放入 D′D',然后再将该样本放回初始数据集 DD 中,使得该样本在下次采样时仍有可能被采到;这个过程重复执行 mm 次后,我们就得到了包含 mm 个样本的数据集 D′D',这就是自助采样的结果。显然,DD 中有一
2017-08-27 11:04:16 352
原创 神经网络
神经网络神经元模型f=(∑i=1nωixi−θ)f=\left(\sum^n_{i=1}\omega_ix_i - \theta \right) 其中 xix_i 为来自第 ii 个神经元的输入,ω\omega 是第 ii 个神经元的连接权重,θ\theta 是阈值. 经常用 Sigmoid 函数作为激活函数:sigmoid(x)=11+e−xsigmoid(x)=\frac {1}{1+e^{-
2017-08-27 11:03:16 387
原创 逻辑回归总结
逻辑回归对于线性边界的情况,边界的形式如下θ0+θ1x1+θ2x2+…+θnxn=∑i=1nθixi \theta_0 +\theta_1x_1 + \theta_2x_2 + \ldots + \theta_nx_n = \sum^n_{i=1}\theta_ix_i 构造预测函数为hθ(x)=g(θTx)=e−θTx1+e−θTx h_\theta(x) = g(\theta^Tx) =
2017-08-27 11:02:20 299
原创 支持向量机
支持向量机间隔与支持向量给定训练样本集 D={(x1,y1),(x2,y2),…,(xm,ym)}D=\{ (\boldsymbol x_1, y1), (\boldsymbol x_2, y_2), \ldots, (\boldsymbol x_m, y_m)\} ,yi∈{−1,+1}y_i \in \{-1, +1\},分类学习最基本的想法是基于训练集 DD 在样本空间中找到一个划分超平面,将
2017-08-27 10:57:41 311
原创 提升树
提升树提升树模型提升的方法采用加法模型(即基函数的线性组合)与前向分步算法。提升树算法提升树算法采用分步算法。首先确定初始提升树f_0(x)=0,第 m 步的模型是f_m(x) = f_{m-1}(x) + T(x;\Theta_m)其中, T(x;\Theta_m)表示决策树; \Theta_m为决策树的参数;f_{m-1}(x)为当前模型,通过经验风险极小化确定下一颗决策树的参数\Theta_m
2017-08-27 10:55:20 308
原创 决策树总结
决策树决策树学习决策树学习的本质是从训练数据集中归纳出一组分类规则,与训练数据集不相矛盾的决策树。可能有多个,可能一个也没有。决策树学习的损失函数通常是正则化的极大似然函数。决策树学习的策略是以损失函数为目标函数的最小化。当损失函数确定以后,学习问题就变为在损失函数意义下选择最优策略树的问题。但是这是个NP问题,所以现实中通常采用启发式算法,近似求解这一问题。这样得到的树是次最优的。通常是一个递归的
2017-08-27 10:53:47 361
原创 Hadoop2.x调度器
计算能力调度器计算能力调度器目前使用基于内存使用量(未来包括CPU资源)的一个分配单元为单位来进行资源的分配。计算能力调度器通过如下配置来实现对多租户的支持:按照企业组来配置分配集群资源配置资源限制,以避免某个大型应用程序独占集群资源针对企业组的不同用户配置资源和访问控制计算能力调度器属于分集队列的概念,有一个预定义的队列称为根队列(root)。系统中所有的队列都是跟队列的子队列,子队列还可
2017-08-27 10:36:34 874
原创 42.Trapping Rain Water
42.Trapping Rain Water 我的想法是通过两个指针,一个first,一个end。第一部分是从左到右遍历,如果end的高度大于等于first的高度,其实就是说明了可以形成一个坑位了,即中间有凹陷的地方。这是就可以计算了。为什么可以单独计算呢,因为,end指针在往右走,无论是比first大还是小,都和end的值没有关系了,因为first只能和第一个比height[first]高的形成
2017-08-25 12:38:04 389
原创 【LeetCode candy】
135.Candy解题思路我首先想到的是如果序列是递增的,那么序列的值是逐渐递增的。如果序列是递减的,那么从最小的开始,往回来是递增的。如果遇到相等,就是1。class Solution { public int candy(int[] ratings) { if (ratings.length == 1){ return 1; }
2017-08-25 09:45:15 285
转载 十道海量数据处理面试题与十个大方法总结
海量数据处理:十道面试题与十个海量数据处理方法总结作者:July、youwang、yanxionglu。时间:二零一一年三月二十六日本文之总结:教你如何迅速秒杀掉:99%的海量数据处理面试题。有任何问题,欢迎随时交流、指正。出处:http://blog.csdn.net/v_JULY_v。 第一部分、十道海量数据处理面试题1、海量日志数据
2017-08-07 11:18:51 554
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人