Spark
文章平均质量分 92
penngrove
这个作者很懒,什么都没留下…
展开
-
性能提升3倍之路:记Guava cache带来的GC问题
在用JanusGraph做OLAP分析的项目中,我发现Spark的executor节点出现大量GC,每个executor的GC开销都在task运行时间的10%以上。用JVM async profiler查看后发现,大概40%~50%的CPU时间都花在GC上。尝试G1GC后,现象依旧没有任何改观。......原创 2022-08-26 14:46:21 · 1111 阅读 · 0 评论 -
Apache Kafka + Apache Kudu + Spark Streaming + Spark SQL实现大数据实时写入和实时监控
在大数据领域,实时写入(upsert)和快速OLAP查询一直是鱼和熊掌不能兼得,比如apache hudi,要事先决定好是倾向于快速写入还是快速OLAP查询,即Copy On Write Table vs. Merge On Read Table一旦选定好,就不能更改。databricks的delta-io也是类似的实现。而现实往往是希望在近乎实时upsert的同时,能快速的查询,至少是接近列存数据库的查询速度。正是这个需要,cloudera于2015年推出了apache kudu。这是一个支...原创 2020-10-11 23:09:32 · 1330 阅读 · 0 评论 -
如何用IntelliJ IDE build & run Spark
准备工作:1. 下载并安装java 1.8(spark依赖)2. 下载IntelliJ Community版本并安装,配置JDK。在欢迎界面右下角,选择Configure,选Structure for New Projects,在弹出来的对话框里面选择SDKs,找到你的JAVA_HOME,指定好,保存。3. 下载spark源代码,本博客使用spark 2.3.04. 安装sca...原创 2020-01-08 14:58:57 · 1147 阅读 · 0 评论