大数据
文章平均质量分 54
叶不二
I code,I happy
展开
-
安装Cloudera Manager Server和Agent过程中遇到的问题
在安装hadoop 的cloudera manager 和 agent的过程中 版本 5.5.1/opt/cm-5.5.1/etc/init.d/cloudera-scm-server start 是能正常启动的/opt/cm-5.5.1/etc/init.d/cloudera-scm-agent 则无法正常启动去查看了一下日志文件,也没有看出是什么错误,然后重装了好几次,还是这原创 2017-05-14 21:49:55 · 8817 阅读 · 0 评论 -
spark RDD算子(四)之创建键值对RDD mapToPair flatMapToPair
mapToPair举例,在F:\sparktest\sample.txt 文件的内容如下 aa bb cc aa aa aa dd dd ee ee ee ee ff aa bb zksee kksee zz zks将每一行的第一个单词作为键,1 作为value创建pairRDD scala版本 scala是没有mapToPair函数的,scala版本只需要map就可以转载 2018-02-01 10:17:16 · 1588 阅读 · 0 评论 -
安装Elasticsearch5.0 部署Head插件
部署5.0版本的ES 5.0版本的ES跟之前的版本最大的不同之处就是多了很多环境的校验,比如jdk,max-files等等。设置内核参数vi /etc/sysctl.conf# 增加下面的内容fs.file-max=65536vm.max_map_count=262144设置资源参数vi /etc/security/limits.conf# 修改转载 2017-09-20 14:43:20 · 313 阅读 · 0 评论 -
java批量导入数据到es中出现数据重复问题解决方案
今天在网上找了一个批量数据导入到es中的java代码,代码主要逻辑如下:// 读取要导入数据的文件BufferedReader br = new BufferedReader(new FileReader( "D:\\test\\test.txt"));String json = null;int count = 0;// 开启批量插入BulkRequestBuilder bulkR原创 2017-09-01 14:49:31 · 15829 阅读 · 2 评论 -
Spark性能优化:资源调优篇
转载地址:http://blog.csdn.net/u012102306/article/details/51637366在开发完Spark作业之后,就该为作业配置合适的资源了。Spark的资源参数,基本都可以在spark-submit命令中作为参数设置。很多Spark初学者,通常不知道该设置哪些必要的参数,以及如何设置这些参数,最后就只能胡乱设置,甚至压根儿不设置。资源参数设置的不合理,可能转载 2017-08-24 11:21:17 · 265 阅读 · 0 评论 -
Spark性能优化:shuffle调优
目录(?)[+]shuffle调优调优概述 大多数Spark作业的性能主要就是消耗在了shuffle环节,因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。因此,如果要让作业的性能更上一层楼,就有必要对shuffle过程进行调优。但是也必须提醒大家的是,影响一个Spark作业性能的因素,主要还是代码开发、资源参数以及数据倾转载 2017-08-25 11:55:07 · 265 阅读 · 0 评论 -
Spark性能优化:数据倾斜调优
转载地址:http://blog.csdn.net/u012102306/article/details/51556450前言 继《Spark性能优化:开发调优篇》和《Spark性能优化:资源调优篇》讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能转载 2017-08-25 11:11:27 · 292 阅读 · 0 评论 -
Spark性能优化:开发调优篇
转载地址:http://blog.csdn.net/u012102306/article/details/513222091、前言 在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,转载 2017-08-25 10:09:02 · 222 阅读 · 0 评论 -
spark-submit运行jar包脚本命令
找到spark-submit文件的目录目录/spark-submit --master spark://192.168.172.10:7077 --executor-memory 2g --total-executor-cores 10 --driver-memory 4G --class com.test.main.test test.jar参数:--master spark集群原创 2017-08-14 15:12:48 · 11093 阅读 · 0 评论 -
Spark Streaming 中使用 zookeeper 保存 offset 并重用 Java版
原文地址:http://blog.csdn.net/jsjsjs1789/article/details/52823218最近工作中使用Spark Streaming +kafka,由于涉及到金额,所以需要保证at only one, 而网上关于Java版的kafka offset回写zk的资料少之又少,于是总结一下,希望可以为广大使用java的友友们提供参考!这里采用的是Direct A转载 2017-08-14 14:36:45 · 1022 阅读 · 1 评论 -
ElasticSearch 2.4.0系列之二 java 创建client客户端
Elasticsearch为Java用户提供了两种内置客户端:节点客户端(node client) 节点客户端以无数据节点(none data node)身份加入集群, 换言之, 它自己不存储任何数据, 但是它知道数据在集群中的具体位置, 并且能够直接转发请求到对应的节点上。传输客户端(Transport client) 这个更轻量的传输客户端能够发送请求到原创 2017-07-28 16:14:02 · 2528 阅读 · 1 评论 -
通过jmx获取activemq-5.90集群监控信息的java代码
准备工作:activemq-5.90安装包 下载地址:http://activemq.apache.org/download-archives.html安装步骤请参考:http://blog.csdn.net/qq_29447481/article/details/72901969原创 2017-06-10 10:43:13 · 1171 阅读 · 1 评论 -
ElasticSearch 2.4.0系列之一 es简介
在使用一个工具或者插件前,首先要从以下这三方面了解它1.是什么2.为什么3.怎么用1.ElasticSearch是什么?引用百度百科上的介绍:ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java开发的,并作为Apache许可条款下的开放源码发布,是原创 2017-07-14 12:29:29 · 1426 阅读 · 0 评论 -
Elasticsearch的存储模型和读写操作
声明:本文章转载地址:http://www.infoq.com/cn/articles/analysis-of-elasticsearch-cluster-part01Elasticsearch是当今最流行的分布式搜索引擎,GitHub、 SalesforceIQ、Netflix等公司将其用于全文检索和分析应用。在Insight,我们用到了Elasticsearch的诸多不同功能,比如:转载 2017-07-12 11:28:52 · 1026 阅读 · 0 评论 -
Mongodb集群搭建的三种方式
原文地址:http://blog.csdn.net/luonanqin/article/details/8497860 MongoDB是时下流行的NoSql数据库,它的存储方式是文档式存储,并不是Key-Value形式。关于Mongodb的特点,这里就不多介绍了,大家可以去看看官方说明:http://docs.mongodb.org/manual/ 今天主要来说说Mongo转载 2017-05-25 11:36:58 · 335 阅读 · 0 评论 -
mongodb输错命令后不能删除问题
在用crt连接linux操作mongodb时,命令输错了,想删除的时候,却删除不了,原因是crt的配置有问题,解决办法如下第一步:选项-->会话选项第二步:终端-->仿真-->终端(T)选为Linux原创 2017-05-24 11:06:52 · 3099 阅读 · 0 评论 -
redis集群搭建步骤
redis 版本3.2.8linux 版本redhat6三台主机,主机名和ip地址分别为r1 192.168.172.84r2 192.168.172.85r3 192.168.172.86每台主机上两个节点r1:7001,7002(一主一备)r2:7003,7004r3:7005,7006===========================分割线====原创 2017-05-22 21:07:40 · 554 阅读 · 0 评论 -
elasticsearch集群的详细安装步骤
elasticsearch版本为2.4.0linux版本为redhat6假设有三台主机主机名和ip地址分别为es1 192.168.172.11es2 192.168.172.12es3 192.168.172.13在es1上的操作:第一步,下载elasticsearch-2.4.0.tar.gz包第二步,因为elasticsearch-2.4.0.tar.原创 2017-05-16 20:14:51 · 757 阅读 · 0 评论 -
es5.2安装search-guard插件后,es-head插件获取不到集群信息
1.search-guard插件安装后,访问单节点信息需要输入用户名和密码,才能看到信息,而且必须是https2.再去访问es-head插件,却出现了如下图所示的情况无论是添加用户名密码还是不添加,head插件都获取不到集群信息3.这个问题找了一天,网上的方法也尝试了好多,最后发现是个配置的问题es5.2的config文件夹下的elasticsearch.yml文件中的一项配置原配置:http.c...原创 2018-03-22 21:38:34 · 3758 阅读 · 0 评论