2016年05月_christ1750

原创 Linux Shell的常用命令

利用wc命令统计文件行，单词数，字符数，利用sort排序和去重，在结合uniq进行词频统计先用cat命令，了解一下文件的大概格式与内容，发现每行为一个单词，现在需要统计这些单词出现的频率，以及显示出现次数最多的5个单词先对文件进行排序，这样相同的单词在紧挨着的行，然后使用uniq -c命令，统计不同的单词及各个单词出现的次数。这样得到的结果就是次数后面紧挨着单词，然后使用sort -nr对次数

2016-05-31 15:53:41 591

原创 java java的内存管理浅谈

java的内存区域主要分为：本地方法栈，java栈，堆区，程序计数器，方法区 1. 程序计数器程序计数器（Program Counter Register），也有称作为PC寄存器。想必学过汇编语言的朋友对程序计数器这个概念并不陌生，在汇编语言中，程序计数器是指CPU中的寄存器，它保存的是程序当前执行的指令的地址（也可以说保存下一条指令的所在存储单元的地址），当CPU需要执行指令时，需要

2016-05-30 15:42:43 452

原创 Java HashMap源码分析

HashSet和HashMap是相同的实现主要分析HashMap HashMap实现了Map接口，允许放入null元素，与hashtable的主要区别是没有实现线程安全，与TreeMap的主要区别是不能保证元素的顺序，因此，不同时间迭代会得到不同的位置，hashMap是用冲突链表法解决冲突根据上图，两个关键的参数是可以影响HashMap的性能的：初始容量（initial capacity）

2016-05-29 18:05:53 395

原创浅谈java的垃圾回收机制

这一篇文章只是对我之前看到的东西做一个简单的总结，以后会更新详细的版本垃圾检测算法：可达性分析算法；引用计数算法：没办法处理循环引用的问题垃圾回收算法：标记清除算法：先标记，后清除，容易产生碎片，不连续的内存空间停止-复制算法：将内存分成两块。缺点就是内存折半，只使用其中一块。用满了之后将内存复制到另一边，对于年轻代的对象来说，存活时间短，对象多，比较适合这种算法，老年代的对象较多的

2016-05-27 08:47:36 401

原创数据分析的商业应用实践

业务理解第一阶段要多问为什么，弄清楚业务逻辑，这其实是最重要的一部分，同时也根据具体业务的不同有不同的做法数据理解首先对数据的质量进行分析借助分布图，箱线图查看数据分布情况，查看数据是都符合一般认知结合数据的偏度和峰度辅助分析，计算算式平均值，中位数，1/4分为以及3/4分位数等常用的统计指标然后可以进行一些简单的数据分析，相关系数矩阵，t检验，卡方检验等数据准备处理

2016-05-25 21:57:47 690

原创 Hive原理及查询优化

Hive原本只支持数据的查询和加载，后面也支持了插入，更新和删除以及流式的api，hive拥有最全的语法和最稳定的执行，与其他spark sql或者presto相比，更适用于稳定的作业执行，后者更倾向于交互式的场景。 Hadoop由HDFS和Yarn组成，HDFS用于执行存储，Yarn用于资源调度和计算，MR是跑在Yarn上的一种计算作业。 Hive的主要任务是把一个sql转化成一个分布式的

2016-05-20 11:04:47 888

原创浅谈布隆过滤器

解决的经典问题：网页黑名单系统垃圾邮件过滤系统爬虫网址判断重复系统容忍一定程度的失误率对空间要求严格布隆过滤器：可以精确的代表一个集合精确的判断一个元素是否在此集合中（并不是准确，因为）精确的程度游设计决定优势：利用很少的空间可以做到精确率较高总结布隆过滤器的过程：注意到题目允许有一定的失误率根据样本的个数n，和允许的失误率p 通过下面的公式bitarra

2016-05-20 09:35:13 375

christ1750的博客