christ1750-CSDN博客

原创 Linux Shell的常用命令

利用wc命令统计文件行，单词数，字符数，利用sort排序和去重，在结合uniq进行词频统计先用cat命令，了解一下文件的大概格式与内容，发现每行为一个单词，现在需要统计这些单词出现的频率，以及显示出现次数最多的5个单词先对文件进行排序，这样相同的单词在紧挨着的行，然后使用uniq -c命令，统计不同的单词及各个单词出现的次数。这样得到的结果就是次数后面紧挨着单词，然后使用sort -nr对次数

2016-05-31 15:53:41 581

原创 java java的内存管理浅谈

java的内存区域主要分为：本地方法栈，java栈，堆区，程序计数器，方法区 1. 程序计数器程序计数器（Program Counter Register），也有称作为PC寄存器。想必学过汇编语言的朋友对程序计数器这个概念并不陌生，在汇编语言中，程序计数器是指CPU中的寄存器，它保存的是程序当前执行的指令的地址（也可以说保存下一条指令的所在存储单元的地址），当CPU需要执行指令时，需要

2016-05-30 15:42:43 445

原创 Java HashMap源码分析

HashSet和HashMap是相同的实现主要分析HashMap HashMap实现了Map接口，允许放入null元素，与hashtable的主要区别是没有实现线程安全，与TreeMap的主要区别是不能保证元素的顺序，因此，不同时间迭代会得到不同的位置，hashMap是用冲突链表法解决冲突根据上图，两个关键的参数是可以影响HashMap的性能的：初始容量（initial capacity）

2016-05-29 18:05:53 387

原创浅谈java的垃圾回收机制

这一篇文章只是对我之前看到的东西做一个简单的总结，以后会更新详细的版本垃圾检测算法：可达性分析算法；引用计数算法：没办法处理循环引用的问题垃圾回收算法：标记清除算法：先标记，后清除，容易产生碎片，不连续的内存空间停止-复制算法：将内存分成两块。缺点就是内存折半，只使用其中一块。用满了之后将内存复制到另一边，对于年轻代的对象来说，存活时间短，对象多，比较适合这种算法，老年代的对象较多的

2016-05-27 08:47:36 394

原创数据分析的商业应用实践

业务理解第一阶段要多问为什么，弄清楚业务逻辑，这其实是最重要的一部分，同时也根据具体业务的不同有不同的做法数据理解首先对数据的质量进行分析借助分布图，箱线图查看数据分布情况，查看数据是都符合一般认知结合数据的偏度和峰度辅助分析，计算算式平均值，中位数，1/4分为以及3/4分位数等常用的统计指标然后可以进行一些简单的数据分析，相关系数矩阵，t检验，卡方检验等数据准备处理

2016-05-25 21:57:47 679

原创 Hive原理及查询优化

Hive原本只支持数据的查询和加载，后面也支持了插入，更新和删除以及流式的api，hive拥有最全的语法和最稳定的执行，与其他spark sql或者presto相比，更适用于稳定的作业执行，后者更倾向于交互式的场景。 Hadoop由HDFS和Yarn组成，HDFS用于执行存储，Yarn用于资源调度和计算，MR是跑在Yarn上的一种计算作业。 Hive的主要任务是把一个sql转化成一个分布式的

2016-05-20 11:04:47 879

原创浅谈布隆过滤器

解决的经典问题：网页黑名单系统垃圾邮件过滤系统爬虫网址判断重复系统容忍一定程度的失误率对空间要求严格布隆过滤器：可以精确的代表一个集合精确的判断一个元素是否在此集合中（并不是准确，因为）精确的程度游设计决定优势：利用很少的空间可以做到精确率较高总结布隆过滤器的过程：注意到题目允许有一定的失误率根据样本的个数n，和允许的失误率p 通过下面的公式bitarra

2016-05-20 09:35:13 369

原创荷兰国旗问题，三色排序

public class ThreeColor { public int[] sortThreeColor(int[] A,int n){ int left = -1; int right = A.length; int i = 0; /* * 分为三种情况 * 分为两个空间：

2016-04-29 19:40:30 2326

原创 KMP算法的简单总结以及java代码实现

KMP研究参考：http://blog.csdn.net/v_july_v/article/details/7041827 做了好几天KMP的题，今天终于写好了，可以总结一下这么多天学到的东西了，结合了众多版本之后觉得还是July写的最好，KMP是一个解决模式串在文本串是否出现过，以及若是出现时，最早出现的位置的经典算法。首先，这个问题，如果用暴力方法解决的话就会有大量的回溯，每次只移动一

2016-04-27 11:00:37 15807 7

原创机器学习数据挖掘书单

机器学习实战数据挖掘-实用机器学习技术数据挖掘：概念与技术统计学习基础数据挖掘、推理与预测机器学习统计学习方法机器学习导论机器学习及其应用模式分类推荐系统实战深入搜索引擎：海量信息的压缩、索引和查询概率论与数理统计大数据：互联网大规模数据挖掘与分布式处理 web数据挖掘数据之巅深入浅出统计学矩阵分析

2016-04-11 09:06:35 550

原创模型融合的主要方法

提交文件创建融合模型（只需要之前得到的结果，不需要重新训练）Bagging 投票融合（Voting）加权融合（weighing）平均融合（Averaging）排序平均（Rank averaging）对于auc，其本质就是一个排序，预测出的auc的值可以转化为排名的特征，然后在进行融合（参考DC人品预测大赛）堆栈泛化创建融合模型Boosting 堆栈泛化（stacking）

2016-04-08 18:44:35 4408

原创关于one-hot编码引发相关问题的一点感想

one-hot编码为什么可以解决类别型数据的离散值问题首先，one-hot编码是N位状态寄存器为N个状态进行编码的方式 eg：高、中、低不可分，→ 用0 0 0 三位编码之后变得可分了，并且成为互相独立的事件 → 类似 SVM中，原本线性不可分的特征，经过project之后到高维之后变得可分了 GBDT处理高维稀疏矩阵的时候效果并不好，即使是低维的稀疏矩阵也未必比SVM好 Tree

2016-04-07 21:06:52 9799

翻译一个成功的Git分支模型

原文链接： http://nvie.com/posts/a-successful-git-branching-model/在这篇文章中，我将要介绍版本的发展模式，在过去的一年中我已经介绍了一些我的工程（无论是私有还有工作的），那些已经被证明是非常成功的。我已经打算写这篇很久了。但是一直到最近我都没有找到时间彻底的去做这件事。我不会过多的去讨论工程的细节问题，几乎都是关于分支策略和版本管理

2016-04-05 18:35:05 370

原创百度运维实习生面试总结

1 tcp四次挥手协议，client端请求断开时的包名 2.free 和 delete的区别 3 awk实现一个用户日志中访问某个ip数量前三个ip地址，并排序 4 火灾总结 5 给一个士兵队列，每次只能输入A比B高或矮这样的信息，是否能对士兵进行排序，用怎样的数据结构实现 6 重载和重写的区别 7 用户聊天时，A确定发送成功并且有返回值了，是否B一定会收到，如果收不到会在哪里 8 方

2016-03-25 22:07:18 3806

原创 2016春招腾讯笔试题

一、格雷码：任意两个相邻的代码只有一位二进制数不同，递归生成N位格雷码二、一个数出现的次数超过一半，找出那个数三、两个大数相乘的算法实现

2016-03-25 21:50:52 885

原创网易2016春招实习笔试总结

（1）存储数据字节数最多的是： 0，‘0’，“0” 0.0 （2）Hadoop中哪种程序的运行生命周期最短 ApplicationMaster ResourceManager NodeManager DataNodeSVM核函数的作用，有几种常见的核函数，松弛因子的作用是什么StringBuilder是否是线程不安全的可不可以同时用abstract和final修饰简述一下start（）和

2016-03-23 08:56:23 1347 1

原创推荐系统的评价指标

准确率与召回率广泛用于信息检索和统计学分类领域的两个度量值查准率：其中精度是检索出相关文档数与文档总数的比率。查全率：检索出的相关文档数和文档库中所有的相关文档数的比率正确率(P)=提取出的正确信息条数/提取出的信息条数召回率(R)=提取出的正确信息条数/样本中的信息条数两者取值在0到1之间，数值越接近1，查准率或者查全率就越高。 F值 = 正确率*召回率*2/正确率和召回率（

2016-03-21 17:05:58 453

原创 one-hot编码

为什么要使用onehot编码呢？因为大部分的机器学习模型需要的事连续的特征，特征有可能是分类值时就需要对特征进行处理，数字表示的时候效率就会提高很多，自然状态码为：000,001,010,011,100,101 独热编码为：000001,000010,000100,001000,010000,100000 这样做的好处主要有：解决了分类器不好处理属性数据的问题在一定程度上也起到了扩充特征

2016-03-19 21:19:08 1469

原创机器学习算法总结

回归分析回归是这样一种建模方式，它先确定一个衡量模型预测误差的量，然后通过这个量来反复优化变量之间的关系。回归方法是统计学的主要应用，被归为统计机器学习。这有些让人迷惑，因为我们可以用回归来指代一类问题和一类算法。实际上，回归是一个过程。以下是一些例子： · 普通最小二乘法 · 逻辑回归 · 逐步回归 · 多元自适应样条回归(MARS) · 局部多项式回归拟合(LOESS)基于实例的学

2016-03-19 21:06:28 762

原创决策树对比

CART：Classfication and Regression Tree 是分类/回归树，cart是一颗二叉树，分类标准是基尼指数：CART做回归数时，使用的是平方误差最小准则。基尼系数：Gini（p） = sigma（每一个类）p（1-p）回归树：属性值为连续实数。将整个输入空间划分为m快，每一块以其平均值作为输出。

2016-03-17 19:42:06 788

原创 K折交叉验证中k值大小和bias、variance的关系

error = Bias（偏差） + Variance（方差） + noise（噪声）模型越复杂，bias越小，Variance越大，越容易过拟合；相反，模型越简单，bias越大，variance越小，越容易欠拟合Variance是形容一个模型的稳定性的，bias是形容某一次样本的结果和真实值的偏差

2016-03-16 19:17:01 5752 1

原创模型融合技术的两种方法：Bagging Boosting

Bagging主要在优化variance（即模型的鲁棒性）boosting主要在优化bias（即模型的精确性）上一节说过了 error= variance + bias 下面分别说一下怎么优化的：bagging：Boostrap Aggregating 意思是重采样然后在每个样本上训练出来的模型取平均值Boosting：是迭代算法，每一次迭代都根据上一次迭代的预测结果对样

2016-03-16 19:16:13 4014

原创机器学习中的正则化

L0 L1 L2 核范数规则化：从贝叶斯的角度看，规则化对应于模型的先验概率。规则化是结构风险最小化的策略的实现，是在经验风险上加一个正则化项或惩罚项第一项：Loss 第二项：规则化项loss ：square loss 最小二乘Hinge Loss SVMexp-Loss： Boostinglog Loss： LR 规则化项：模型越复杂，规则化

2016-03-15 15:34:25 1138

原创欢迎使用CSDN-markdown编辑器

最近一直在研究LDA的东西，就打算随便写写自己的看法，看到网上说起LDA的东西很多，大多数是以以下的角度谈到的：一个分布（狄利克雷分布）一个采样（Gibbs采样）一个模型（pLSA）主要的难点在于埋下来以后再慢慢写

2016-03-04 23:11:58 228

原创镜像二叉树

/**public class TreeNode { int val = 0; TreeNode left = null; TreeNode right = null; public TreeNode(int val) { this.val = val;

2016-03-03 19:52:51 265

christ1750的博客