hhjajja-CSDN博客

并发编程队列探索

队列是编程过程中一直在使用，最近使用的频繁一点，做一下总结：可以作为消息队列的方式有很多，不过场景不同有不同的选择kafka：异步处理，且能实现分区，比较适合高并发分布式处理（有自动分区实现简单）生成：异步写\同步写消费：高级api,简单易用；低级api，可以自如控制offsetBlockingQueue：阻塞队列,这个一般用在同一进...

2017-05-08 10:17:40 94

原创 spark 参数

从其他地方拷贝的，自己存一份 http://guoke456.iteye.com/admin/blogs/2372445以下是整理的Spark中的一些配置参数，官方文档请参考Spark Configuration。Spark提供三个位置用来配置系统：Spark属性：控制大部分的应用程序参数，可以用SparkConf对象或者Java系统属性设置环境变量：可以通过每个节点的 c...

2017-05-03 15:29:47 167

原创 spark action记录

1.reduce(func):通过函数func先聚集各分区的数据集，再聚集分区之间的数据，func接收两个参数，返回一个新值，新值再做为参数继续传递给函数func，直到最后一个元素 2.collect():以数据的形式返回数据集中的所有元素给Driver程序，为防止Driver程序内存溢出，一般要控制返回的数据集大小 3.count()：返回数据集元素个数 4.firs...

2017-02-09 17:34:45 124

原创 spark 缓存篇

spark数据集市RDD，这里有个很重要的特性是RDD可以选择存储起来让另外的action操作，下面是各种缓存级别[color=red]存储方式[/color]：RDD的持久化或缓存选项是通过persist()或cache()[color=red]备注[/color]：1.RDD中的数据具有容错性； 2.Shuffle操作是不需要指定cache()或者persist()的，会...

2017-02-09 11:08:36 256

原创如何查看最耗cpu程序具体情况

top命令找到最耗cpu的进程号${1}top -p ${1} -H 找出最耗cpu的线程号${2}将${2}转换为16进制printf "%x\n" ${2}打印结果为${3}jstack ${1} | grep ${3} -A 30 原文：http://blog.csdn.net/oopsoom/article/detail...

2017-02-07 17:53:24 384

原创 spark学习使用记录

之前一直也在用storm与spark进行开发，最近从头梳理了一下，整个的学习使用过程，一点一点记录我是学java的，上手就是java api先说一下我对spark-yarn管理的理解，程序是driver，提交到resourcemanage中，申请资源（excutor个数，core个数等等），如果有资源，则允许运行，分配到各个worknode中，一个分区对应一个task，分区与并发有...

2017-01-20 17:48:57 121

原创 elasticserach 1.x升级到5.x

elasticserach 一直使用1.x的，这个季度准备做好升级到5.x的准备工作，因为是管理整个集群，需要做到让其他业务方无脑升级这个季度记录升级过程：1.x 升级到2.x 装上elasticsearch-migration-1.x插件一检查发现很多问题，先说红色不允许的启动上遇到的问题：《——————————影响严重，会阻止集群启动------------...

2017-01-04 17:27:56 149

原创 elasticsearch 浅谈

转眼之间使用es已经快2年了，有一些自己工作中遇到的问题以及曾经存在的误区想记录分享一下 es作为分布式集群，在我看来，要使用es，可以分2个部分来看，一是数据导入，二是数据查询。数据导入上，es支持copyto，这个和solr的copyfiled一样;es也支持多值，这个不用设置，直接传入多值即可; 遇到的问题：即时搜索----最开始直接使用prefix...

2015-05-21 11:20:17 152

原创 js初始化

window.onload=function(){ alert("初始化加载"); } $(document).ready(function(){ alert("初始化方法进入"); });

2015-05-21 11:08:09 103

原创 java HashMap

HashMap的扩容问题在实际开发中还没怎么注意到，不是不想注意，实在是没有应用场景，HashMap装载上万数据甚至装载上千数据都没试过，但是HashMap的扩容确实是一个比较值得研究的问题。首先HashMap是一个散列表，那么要如果才能散列均匀，这个可以从hashMap是如果装载数据上来查找结果，HashMap的初始长度是16。 static int ...

2014-12-10 15:26:23 1039

原创 HASHCODE认知

说实话，工作以来，hashcode一直知道，但是怎么用，为什么要重写重来没深究过，这次搞明白了，也分享一下。 equals方法在对象比较的时候相信大家都重写过，但是重写equals的同时重写hashcode方法，我所知道的大多数人是没有作这个操作的。首先来说下，为什么要重写equals，如果不重写，那么默认比较的是对象的引用public class Test3 {...

2014-12-10 14:55:47 97

原创自学成果验证

因为项目中用到了elasticsearch，所以学习了其源码，想搞清楚其各部分原理这里记载以下自己的学习成果org.elasticsearch.cluster.metadata.Metadata下Map indices转载了index全名为keyMap aliasAndIndexToIndexMap装载了包含全名和别名的所有keyTransportSearchTypeA...

2014-05-20 11:21:45 203

原创 JVM垃圾回收

最近项目有点多，机器不够用，就想到了节省空间，一台服务器多跑几个服务，于是把几个tomcat都监控起来了，然后研究了一下jvm的各项指标，有一些自己的理解，分享一下本人用的是jmx监控tomcat，一般未更改过gc策略的，jdk1.5以上gc策略都是用的PS MarkSweep，网上不少在说cms策略更好，但是没用过，说是可以减少stop-the-world的时间，具体影响多大...

2014-05-13 11:43:53 92

原创 java elastic

curl 'http://localhost:9200/cdb_100006_2/_analyze?pretty=true&analyzer=ik' -d '苏州园区园太汽车服务'curl 'http://localhost:9200/cdb_100006_2/_analyze?pretty=true&analyzer=standard' -d '太极集团a4'{ ...

2014-05-07 10:22:13 107

guokejojo的博客