自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 Linux Shell的常用命令

利用wc命令统计文件行,单词数,字符数,利用sort排序和去重,在结合uniq进行词频统计先用cat命令,了解一下文件的大概格式与内容,发现每行为一个单词,现在需要统计这些单词出现的频率,以及显示出现次数最多的5个单词 先对文件进行排序,这样相同的单词在紧挨着的行,然后使用uniq -c命令,统计不同的单词及各个单词出现的次数。这样得到的结果就是次数后面紧挨着单词,然后使用sort -nr对次数

2016-05-31 15:53:41 591

原创 java java的内存管理浅谈

java的内存区域主要分为:本地方法栈,java栈,堆区,程序计数器,方法区 1. 程序计数器 程序计数器(Program Counter Register),也有称作为PC寄存器。想必学过汇编语言的朋友对程序计数器这个概念并不陌生,在汇编语言中,程序计数器是指CPU中的寄存器,它保存的是程序当前执行的指令的地址(也可以说保存下一条指令的所在存储单元的地址),当CPU需要执行指令时,需要

2016-05-30 15:42:43 452

原创 Java HashMap源码分析

HashSet和HashMap是相同的实现 主要分析HashMap HashMap实现了Map接口,允许放入null元素,与hashtable的主要区别是没有实现线程安全,与TreeMap的主要区别是不能保证元素的顺序,因此,不同时间迭代会得到不同的位置,hashMap是用冲突链表法解决冲突 根据上图,两个关键的参数是可以影响HashMap的性能的:初始容量(initial capacity)

2016-05-29 18:05:53 395

原创 浅谈java的垃圾回收机制

这一篇文章只是对我之前看到的东西做一个简单的总结,以后会更新详细的版本垃圾检测算法:可达性分析算法; 引用计数算法:没办法处理循环引用的问题垃圾回收算法:标记清除算法:先标记,后清除,容易产生碎片,不连续的内存空间 停止-复制算法:将内存分成两块。缺点就是内存折半,只使用其中一块。用满了之后将内存复制到另一边,对于年轻代的对象来说,存活时间短,对象多,比较适合这种算法,老年代的对象较多的

2016-05-27 08:47:36 401

原创 数据分析的商业应用实践

业务理解 第一阶段要多问为什么,弄清楚业务逻辑,这其实是最重要的一部分,同时也根据具体业务的不同有不同的做法 数据理解 首先对数据的质量进行分析 借助分布图,箱线图查看数据分布情况,查看数据是都符合一般认知 结合数据的偏度和峰度辅助分析,计算算式平均值,中位数,1/4分为以及3/4分位数等常用的统计指标 然后可以进行一些简单的数据分析,相关系数矩阵,t检验,卡方检验等 数据准备 处理

2016-05-25 21:57:47 690

原创 Hive原理及查询优化

Hive原本只支持数据的查询和加载,后面也支持了插入,更新和删除以及流式的api,hive拥有最全的语法 和最稳定的执行,与其他spark sql或者presto相比,更适用于稳定的作业执行,后者更倾向于交互式的场景。 Hadoop由HDFS和Yarn组成,HDFS用于执行存储,Yarn用于资源调度和计算,MR是跑在Yarn上的一种计算作业。 Hive的主要任务是把一个sql转化成一个分布式的

2016-05-20 11:04:47 888

原创 浅谈布隆过滤器

解决的经典问题: 网页黑名单系统 垃圾邮件过滤系统 爬虫网址判断重复系统 容忍一定程度的失误率 对空间要求严格布隆过滤器: 可以精确的代表一个集合 精确的判断一个元素是否在此集合中(并不是准确,因为) 精确的程度游设计决定 优势:利用很少的空间可以做到精确率较高总结布隆过滤器的过程: 注意到题目允许有一定的失误率 根据样本的个数n,和允许的失误率p 通过下面的公式bitarra

2016-05-20 09:35:13 375

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除