Linux Shell的常用命令

利用wc命令统计文件行,单词数,字符数,利用sort排序和去重,在结合uniq进行词频统计 先用cat命令,了解一下文件的大概格式与内容,发现每行为一个单词,现在需要统计这些单词出现的频率,以及显示出现次数最多的5个单词 先对文件进行排序,这样相同的单词在紧挨着的行,然后使用uniq -c命令,...

2016-05-31 15:53:41

阅读数 339

评论数 0

java java的内存管理浅谈

java的内存区域主要分为:本地方法栈,java栈,堆区,程序计数器,方法区 1. 程序计数器 程序计数器(Program Counter Register),也有称作为PC寄存器。想必学过汇编语言的朋友对程序计数器这个概念并不陌生,在汇编语言中,程序计数器是指CPU中的寄存器,它保存...

2016-05-30 15:42:43

阅读数 291

评论数 0

Java HashMap源码分析

HashSet和HashMap是相同的实现 主要分析HashMap HashMap实现了Map接口,允许放入null元素,与hashtable的主要区别是没有实现线程安全,与TreeMap的主要区别是不能保证元素的顺序,因此,不同时间迭代会得到不同的位置,hashMap是用冲突链表法解决冲突 ...

2016-05-29 18:05:53

阅读数 253

评论数 0

浅谈java的垃圾回收机制

这一篇文章只是对我之前看到的东西做一个简单的总结,以后会更新详细的版本 垃圾检测算法: 可达性分析算法; 引用计数算法:没办法处理循环引用的问题 垃圾回收算法: 标记清除算法:先标记,后清除,容易产生碎片,不连续的内存空间 停止-复制算法:将内存分成两块。缺点就是内存折半,只使用其中一块。用满...

2016-05-27 08:47:36

阅读数 286

评论数 0

数据分析的商业应用实践

业务理解 第一阶段要多问为什么,弄清楚业务逻辑,这其实是最重要的一部分,同时也根据具体业务的不同有不同的做法 数据理解 首先对数据的质量进行分析 借助分布图,箱线图查看数据分布情况,查看数据是都符合一般认知 结合数据的偏度和峰度辅助分析,计算算式平均值,中位数,1/4分为以及3/4分位数...

2016-05-25 21:57:47

阅读数 355

评论数 0

Hive原理及查询优化

Hive原本只支持数据的查询和加载,后面也支持了插入,更新和删除以及流式的api,hive拥有最全的语法 和最稳定的执行,与其他spark sql或者presto相比,更适用于稳定的作业执行,后者更倾向于交互式的场景。 Hadoop由HDFS和Yarn组成,HDFS用于执行存储,Yarn用于资...

2016-05-20 11:04:47

阅读数 626

评论数 0

浅谈布隆过滤器

解决的经典问题: 网页黑名单系统 垃圾邮件过滤系统 爬虫网址判断重复系统 容忍一定程度的失误率 对空间要求严格布隆过滤器: 可以精确的代表一个集合 精确的判断一个元素是否在此集合中(并不是准确,因为) 精确的程度游设计决定 优势:利用很少的空间可以做到精确率较高总结布隆过滤器的过...

2016-05-20 09:35:13

阅读数 258

评论数 0

荷兰国旗问题,三色排序

public class ThreeColor { public int[] sortThreeColor(int[] A,int n){ int left = -1; int right = A.length; int i = 0; ...

2016-04-29 19:40:30

阅读数 1741

评论数 0

KMP算法的简单总结以及java代码实现

KMP研究 参考:http://blog.csdn.net/v_july_v/article/details/7041827 做了好几天KMP的题,今天终于写好了,可以总结一下这么多天学到的东西了,结合了众多版本之后觉得还是July写的最好,KMP是一个解决模式串在文本串是否出现过,以及若是出...

2016-04-27 11:00:37

阅读数 9351

评论数 3

机器学习数据挖掘书单

机器学习实战 数据挖掘-实用机器学习技术 数据挖掘:概念与技术 统计学习基础 数据挖掘、推理与预测 机器学习 统计学习方法 机器学习导论 机器学习及其应用 模式分类 推荐系统实战 深入搜索引擎:海量信息的压缩、索引和查询 概率论与数理统计 大数据:互联网大规模数据挖掘与分布...

2016-04-11 09:06:35

阅读数 395

评论数 0

模型融合的主要方法

提交文件创建融合模型(只需要之前得到的结果,不需要重新训练)Bagging 投票融合(Voting) 加权融合(weighing) 平均融合(Averaging) 排序平均(Rank averaging) 对于auc,其本质就是一个排序,预测出的auc的值可以转化为排名的特征,然后在进行...

2016-04-08 18:44:35

阅读数 2413

评论数 0

关于one-hot编码引发相关问题的一点感想

one-hot编码为什么可以解决类别型数据的离散值问题 首先,one-hot编码是N位状态寄存器为N个状态进行编码的方式 eg:高、中、低不可分,→ 用0 0 0 三位编码之后变得可分了,并且成为互相独立的事件 → 类似 SVM中,原本线性不可分的特征,经过project之后到高维之后...

2016-04-07 21:06:52

阅读数 7107

评论数 0

一个成功的Git分支模型

原文链接 : http://nvie.com/posts/a-successful-git-branching-model/ 在这篇文章中,我将要介绍版本的发展模式,在过去的一年中我已经介绍了一些我的工程(无论是私有还有工作的),那些已经被证明是非常成功的。我已经打算写这篇很久了。但是一直到最近...

2016-04-05 18:35:05

阅读数 243

评论数 0

百度运维实习生面试总结

1 tcp四次挥手协议,client端请求断开时的包名 2.free 和 delete的区别 3 awk实现一个用户日志中访问某个ip数量前三个ip地址,并排序 4 火灾总结 5 给一个士兵队列,每次只能输入A比B高或矮这样的信息,是否能对士兵进行排序,用怎样的数据结构实现 6 重载和重...

2016-03-25 22:07:18

阅读数 1716

评论数 0

2016春招腾讯笔试题

一、格雷码:任意两个相邻的代码只有一位二进制数不同,递归生成N位格雷码 二、一个数出现的次数超过一半,找出那个数 三、两个大数相乘的算法实现

2016-03-25 21:50:52

阅读数 720

评论数 0

网易2016春招实习笔试总结

(1)存储数据字节数最多的是: 0,‘0’,“0” 0.0 (2)Hadoop中哪种程序的运行生命周期最短 ApplicationMaster ResourceManager NodeManager DataNodeSVM核函数的作用,有几种常见的核函数,松弛因子的作用是什么Strin...

2016-03-23 08:56:23

阅读数 1186

评论数 1

推荐系统的评价指标

准确率与召回率 广泛用于信息检索和统计学分类领域的两个度量值 查准率:其中精度是检索出相关文档数与文档总数的比率。 查全率:检索出的相关文档数和文档库中所有的相关文档数的比率 正确率(P)=提取出的正确信息条数/提取出的信息条数 召回率(R)=提取出的正确信息条数/样本中的信息条数两者取...

2016-03-21 17:05:58

阅读数 264

评论数 0

one-hot编码

为什么要使用onehot编码呢?因为大部分的机器学习模型需要的事连续的特征,特征有可能是分类值时就需要对特征进行处理,数字表示的时候效率就会提高很多,自然状态码为:000,001,010,011,100,101 独热编码为:000001,000010,000100,001000,010000,1...

2016-03-19 21:19:08

阅读数 1174

评论数 0

机器学习算法总结

回归分析 回归是这样一种建模方式,它先确定一个衡量模型预测误差的量,然后通过这个量来反复优化变量之间的关系。回归方法是统计学的主要应用,被归为统计机器学习。这有些让人迷惑,因为我们可以用回归来指代一类问题和一类算法。实际上,回归是一个过程。以下是一些例子: · 普通最小二乘法 · 逻辑回归 ...

2016-03-19 21:06:28

阅读数 582

评论数 0

决策树对比

CART: Classfication and Regression Tree 是分类/回归树,cart是一颗二叉树,分类标准是基尼指数: CART做回归数时,使用的是平方误差最小准则。 基尼系数:Gini(p) = sigma(每一个类)p(...

2016-03-17 19:42:06

阅读数 543

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭