自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(25)
  • 收藏
  • 关注

原创 Linux Shell的常用命令

利用wc命令统计文件行,单词数,字符数,利用sort排序和去重,在结合uniq进行词频统计先用cat命令,了解一下文件的大概格式与内容,发现每行为一个单词,现在需要统计这些单词出现的频率,以及显示出现次数最多的5个单词 先对文件进行排序,这样相同的单词在紧挨着的行,然后使用uniq -c命令,统计不同的单词及各个单词出现的次数。这样得到的结果就是次数后面紧挨着单词,然后使用sort -nr对次数

2016-05-31 15:53:41 581

原创 java java的内存管理浅谈

java的内存区域主要分为:本地方法栈,java栈,堆区,程序计数器,方法区 1. 程序计数器 程序计数器(Program Counter Register),也有称作为PC寄存器。想必学过汇编语言的朋友对程序计数器这个概念并不陌生,在汇编语言中,程序计数器是指CPU中的寄存器,它保存的是程序当前执行的指令的地址(也可以说保存下一条指令的所在存储单元的地址),当CPU需要执行指令时,需要

2016-05-30 15:42:43 445

原创 Java HashMap源码分析

HashSet和HashMap是相同的实现 主要分析HashMap HashMap实现了Map接口,允许放入null元素,与hashtable的主要区别是没有实现线程安全,与TreeMap的主要区别是不能保证元素的顺序,因此,不同时间迭代会得到不同的位置,hashMap是用冲突链表法解决冲突 根据上图,两个关键的参数是可以影响HashMap的性能的:初始容量(initial capacity)

2016-05-29 18:05:53 387

原创 浅谈java的垃圾回收机制

这一篇文章只是对我之前看到的东西做一个简单的总结,以后会更新详细的版本垃圾检测算法:可达性分析算法; 引用计数算法:没办法处理循环引用的问题垃圾回收算法:标记清除算法:先标记,后清除,容易产生碎片,不连续的内存空间 停止-复制算法:将内存分成两块。缺点就是内存折半,只使用其中一块。用满了之后将内存复制到另一边,对于年轻代的对象来说,存活时间短,对象多,比较适合这种算法,老年代的对象较多的

2016-05-27 08:47:36 394

原创 数据分析的商业应用实践

业务理解 第一阶段要多问为什么,弄清楚业务逻辑,这其实是最重要的一部分,同时也根据具体业务的不同有不同的做法 数据理解 首先对数据的质量进行分析 借助分布图,箱线图查看数据分布情况,查看数据是都符合一般认知 结合数据的偏度和峰度辅助分析,计算算式平均值,中位数,1/4分为以及3/4分位数等常用的统计指标 然后可以进行一些简单的数据分析,相关系数矩阵,t检验,卡方检验等 数据准备 处理

2016-05-25 21:57:47 679

原创 Hive原理及查询优化

Hive原本只支持数据的查询和加载,后面也支持了插入,更新和删除以及流式的api,hive拥有最全的语法 和最稳定的执行,与其他spark sql或者presto相比,更适用于稳定的作业执行,后者更倾向于交互式的场景。 Hadoop由HDFS和Yarn组成,HDFS用于执行存储,Yarn用于资源调度和计算,MR是跑在Yarn上的一种计算作业。 Hive的主要任务是把一个sql转化成一个分布式的

2016-05-20 11:04:47 879

原创 浅谈布隆过滤器

解决的经典问题: 网页黑名单系统 垃圾邮件过滤系统 爬虫网址判断重复系统 容忍一定程度的失误率 对空间要求严格布隆过滤器: 可以精确的代表一个集合 精确的判断一个元素是否在此集合中(并不是准确,因为) 精确的程度游设计决定 优势:利用很少的空间可以做到精确率较高总结布隆过滤器的过程: 注意到题目允许有一定的失误率 根据样本的个数n,和允许的失误率p 通过下面的公式bitarra

2016-05-20 09:35:13 369

原创 荷兰国旗问题,三色排序

public class ThreeColor { public int[] sortThreeColor(int[] A,int n){ int left = -1; int right = A.length; int i = 0; /* * 分为三种情况 * 分为两个空间:

2016-04-29 19:40:30 2326

原创 KMP算法的简单总结以及java代码实现

KMP研究 参考:http://blog.csdn.net/v_july_v/article/details/7041827 做了好几天KMP的题,今天终于写好了,可以总结一下这么多天学到的东西了,结合了众多版本之后觉得还是July写的最好,KMP是一个解决模式串在文本串是否出现过,以及若是出现时,最早出现的位置的经典算法。 首先,这个问题,如果用暴力方法解决的话就会有大量的回溯,每次只移动一

2016-04-27 11:00:37 15807 7

原创 机器学习数据挖掘书单

机器学习实战 数据挖掘-实用机器学习技术 数据挖掘:概念与技术 统计学习基础 数据挖掘、推理与预测 机器学习 统计学习方法 机器学习导论 机器学习及其应用 模式分类 推荐系统实战 深入搜索引擎:海量信息的压缩、索引和查询 概率论与数理统计 大数据:互联网大规模数据挖掘与分布式处理 web数据挖掘 数据之巅 深入浅出统计学 矩阵分析

2016-04-11 09:06:35 550

原创 模型融合的主要方法

提交文件创建融合模型(只需要之前得到的结果,不需要重新训练)Bagging 投票融合(Voting) 加权融合(weighing) 平均融合(Averaging) 排序平均(Rank averaging) 对于auc,其本质就是一个排序,预测出的auc的值可以转化为排名的特征,然后在进行融合(参考DC人品预测大赛) 堆栈泛化创建融合模型Boosting 堆栈泛化(stacking)

2016-04-08 18:44:35 4408

原创 关于one-hot编码引发相关问题的一点感想

one-hot编码为什么可以解决类别型数据的离散值问题 首先,one-hot编码是N位状态寄存器为N个状态进行编码的方式 eg:高、中、低不可分,→ 用0 0 0 三位编码之后变得可分了,并且成为互相独立的事件 → 类似 SVM中,原本线性不可分的特征,经过project之后到高维之后变得可分了 GBDT处理高维稀疏矩阵的时候效果并不好,即使是低维的稀疏矩阵也未必比SVM好 Tree

2016-04-07 21:06:52 9799

翻译 一个成功的Git分支模型

原文链接 : http://nvie.com/posts/a-successful-git-branching-model/在这篇文章中,我将要介绍版本的发展模式,在过去的一年中我已经介绍了一些我的工程(无论是私有还有工作的),那些已经被证明是非常成功的。我已经打算写这篇很久了。但是一直到最近我都没有找到时间彻底的去做这件事。我不会过多的去讨论工程的细节问题,几乎都是关于分支策略和版本管理

2016-04-05 18:35:05 370

原创 百度运维实习生面试总结

1 tcp四次挥手协议,client端请求断开时的包名 2.free 和 delete的区别 3 awk实现一个用户日志中访问某个ip数量前三个ip地址,并排序 4 火灾总结 5 给一个士兵队列,每次只能输入A比B高或矮这样的信息,是否能对士兵进行排序,用怎样的数据结构实现 6 重载和重写的区别 7 用户聊天时,A确定发送成功并且有返回值了,是否B一定会收到,如果收不到会在哪里 8 方

2016-03-25 22:07:18 3806

原创 2016春招腾讯笔试题

一、格雷码:任意两个相邻的代码只有一位二进制数不同,递归生成N位格雷码 二、一个数出现的次数超过一半,找出那个数 三、两个大数相乘的算法实现

2016-03-25 21:50:52 885

原创 网易2016春招实习笔试总结

(1)存储数据字节数最多的是: 0,‘0’,“0” 0.0 (2)Hadoop中哪种程序的运行生命周期最短 ApplicationMaster ResourceManager NodeManager DataNodeSVM核函数的作用,有几种常见的核函数,松弛因子的作用是什么StringBuilder是否是线程不安全的可不可以同时用abstract和final修饰简述一下start()和

2016-03-23 08:56:23 1347 1

原创 推荐系统的评价指标

准确率与召回率 广泛用于信息检索和统计学分类领域的两个度量值 查准率:其中精度是检索出相关文档数与文档总数的比率。 查全率:检索出的相关文档数和文档库中所有的相关文档数的比率 正确率(P)=提取出的正确信息条数/提取出的信息条数 召回率(R)=提取出的正确信息条数/样本中的信息条数两者取值在0到1之间,数值越接近1,查准率或者查全率就越高。 F值 = 正确率*召回率*2/正确率和召回率(

2016-03-21 17:05:58 453

原创 one-hot编码

为什么要使用onehot编码呢?因为大部分的机器学习模型需要的事连续的特征,特征有可能是分类值时就需要对特征进行处理,数字表示的时候效率就会提高很多,自然状态码为:000,001,010,011,100,101 独热编码为:000001,000010,000100,001000,010000,100000 这样做的好处主要有: 解决了分类器不好处理属性数据的问题 在一定程度上也起到了扩充特征

2016-03-19 21:19:08 1469

原创 机器学习算法总结

回归分析 回归是这样一种建模方式,它先确定一个衡量模型预测误差的量,然后通过这个量来反复优化变量之间的关系。回归方法是统计学的主要应用,被归为统计机器学习。这有些让人迷惑,因为我们可以用回归来指代一类问题和一类算法。实际上,回归是一个过程。以下是一些例子: · 普通最小二乘法 · 逻辑回归 · 逐步回归 · 多元自适应样条回归(MARS) · 局部多项式回归拟合(LOESS)基于实例的学

2016-03-19 21:06:28 762

原创 决策树对比

CART:Classfication and Regression Tree 是分类/回归树,cart是一颗二叉树,分类标准是基尼指数:CART做回归数时,使用的是平方误差最小准则。基尼系数:Gini(p) = sigma(每一个类)p(1-p)回归树:属性值为连续实数。将整个输入空间划分为m快,每一块以其平均值作为输出。

2016-03-17 19:42:06 788

原创 K折交叉验证中k值大小和bias、variance的关系

error = Bias(偏差) + Variance(方差) + noise(噪声)模型越复杂,bias越小,Variance越大,越容易过拟合;相反,模型越简单,bias越大,variance越小,越容易欠拟合Variance是形容一个模型的稳定性的,bias是形容某一次样本的结果和真实值的偏差

2016-03-16 19:17:01 5752 1

原创 模型融合技术的两种方法:Bagging Boosting

Bagging主要在优化variance(即模型的鲁棒性)boosting主要在优化bias(即模型的精确性)上一节说过了   error= variance + bias 下面分别说一下怎么优化的:bagging:Boostrap Aggregating 意思是重采样 然后在每个样本上训练出来的模型取平均值Boosting:是迭代算法,每一次迭代都根据上一次迭代的预测结果对样

2016-03-16 19:16:13 4014

原创 机器学习中的正则化

L0 L1 L2 核范数规则化:从贝叶斯的角度看,规则化对应于模型的先验概率。规则化是结构风险最小化的策略的实现,是在经验风险上加一个正则化项或惩罚项第一项:Loss    第二项:规则化项loss :square loss  最小二乘Hinge Loss    SVMexp-Loss:  Boostinglog Loss:   LR  规则化项:模型越复杂,规则化

2016-03-15 15:34:25 1138

原创 欢迎使用CSDN-markdown编辑器

最近一直在研究LDA的东西,就打算随便写写自己的看法,看到网上说起LDA的东西很多,大多数是以以下的角度谈到的:一个分布(狄利克雷分布)一个采样(Gibbs采样)一个模型(pLSA) 主要的难点在于 埋下来以后再慢慢写

2016-03-04 23:11:58 228

原创 镜像二叉树

/**public class TreeNode {    int val = 0;    TreeNode left = null;    TreeNode right = null;     public TreeNode(int val) {        this.val = val;     

2016-03-03 19:52:51 265

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除