Hadoop
文章平均质量分 56
penngrove
这个作者很懒,什么都没留下…
展开
-
性能提升3倍之路:记Guava cache带来的GC问题
在用JanusGraph做OLAP分析的项目中,我发现Spark的executor节点出现大量GC,每个executor的GC开销都在task运行时间的10%以上。用JVM async profiler查看后发现,大概40%~50%的CPU时间都花在GC上。尝试G1GC后,现象依旧没有任何改观。......原创 2022-08-26 14:46:21 · 1108 阅读 · 0 评论 -
Apache Kafka + Apache Kudu + Spark Streaming + Spark SQL实现大数据实时写入和实时监控
在大数据领域,实时写入(upsert)和快速OLAP查询一直是鱼和熊掌不能兼得,比如apache hudi,要事先决定好是倾向于快速写入还是快速OLAP查询,即Copy On Write Table vs. Merge On Read Table一旦选定好,就不能更改。databricks的delta-io也是类似的实现。而现实往往是希望在近乎实时upsert的同时,能快速的查询,至少是接近列存数据库的查询速度。正是这个需要,cloudera于2015年推出了apache kudu。这是一个支...原创 2020-10-11 23:09:32 · 1330 阅读 · 0 评论 -
ssh无密码登录
在Hadoop集群环境中,启动集群需要datanode和nodemanager登录,每次输入密码太麻烦。网上有各种版本的介绍告诉你如何让ssh不输密码。经过我尝试,最有效的办法是 http://www.thegeekstuff.com/2008/11/3-steps-to-perform-ssh-login-without-password-using-ssh-keygen-ssh-copy-i原创 2013-03-15 10:05:38 · 803 阅读 · 0 评论