大数据开发日志
文章平均质量分 86
kakaluoteyy
这个作者很懒,什么都没留下…
展开
-
scala:获取Future中的值
异步非阻塞方式1. 获取返回的所有情况import scala.concurrent.{Await, Future}import scala.concurrent.ExecutionContext.Implicits.globalimport scala.util.{Failure, Success}import scala.concurrent.duration._object Test { def main(args: Array[String]): Unit = { va原创 2020-09-08 18:15:22 · 1020 阅读 · 0 评论 -
ES集群完全搭建(es、es-head、Kibana)指南
环境jdk1.8 下载链接 jdk-8u191-linux-x64.tar.gzelasticsearch-5.6.10 下载链接 elasticsearch-5-6-10elasticsearch-head-master 下载链接 elasticsearch-headkibana-5.6.10-linux-x86_64.tar.gz 下载链接 kibana-5-6-10...原创 2018-11-06 16:29:53 · 7039 阅读 · 2 评论 -
ES脑裂问题分析及优化
脑裂问题,就是同一个集群中的不同节点,对于集群的状态,有了不一样的理解。 由于并发访问量的提高,导致了我们两个节点的集群(分片数默认为5,副本为1,没有固定的master,都是集群中的节点又做data又做master)状态变成了red,出现了大量的坏片,并且坏掉的都是主分片及其副本。分析发现,是ES集群出现了脑裂问题(俗称精神分裂),即集群中不同的节点对于master的...原创 2018-07-16 17:30:08 · 17208 阅读 · 0 评论 -
ElasticSearch中text和keyword类型的区别
在ES的2.X版本中,对于字符类型的数据,我们都使用string类型作为映射,然后再设置它的分词,例如我们新建了一个名为 zk_test的索引,类型为 info,为其中字符类型的name字段设置索引,设置不分词,Kibanan中操作如下PUT /zk_test/info/_mapping{ "info":{ "properties":{ "name":{"typ...原创 2018-05-15 17:15:50 · 22872 阅读 · 5 评论 -
Hive常见问题及解决方案
Hive报错如下:Caused by: org.apache.hadoop.hive.ql.metadata.HiveFatalException: [Error 20004]: Fatal error occurred when node tried to create too many dynamic partitions. The maximum number of dynamic part...原创 2018-05-05 20:48:46 · 2435 阅读 · 1 评论 -
ES创建索引、投放文档过程
因为之前对ES并不是太熟悉,实际工作时,在ElasticSearch和Kibanan的使用过程中,出现了好多棘手的状况,修修补补,对于在ES上创建索引到插入文档,搜索、查询文档的整个流程,大概有了规范化的运行模式,以下是在本人总结的大致从创建到插入的流程,以及其中注意的一些细节。 以ES集成Kibanan为例:第一步:创建索引 在Kibanan的Dev Tools网络接口中...原创 2018-05-04 20:40:55 · 2755 阅读 · 2 评论 -
Scala远程连接MongoDB读取数据
使用用户名和密码远程连接MongoDB数据库,用Java和Scala连接其实原理相同,都是JDBC,用MongoDB的连接驱动,只是语法上稍有区别而已,而在类、方法的调用上一模一样。 在此,分享一下Scala连接MongoDB查看数据的Code,语法结构上稍作修改就可以用Java实现。首先,下载连接驱动,添加到工程里,下载地址:mongo-java-driver-3.7.0.ja...原创 2018-05-10 15:25:49 · 3056 阅读 · 1 评论 -
Scala远程访问Hive数据仓库
通过Hue等远程WebUI界面访问Hive,效率往往受到网络限制,并且不能将Hive数据仓库的内容实现导入导出到本地,因此,今天笔者就通过简单的Scala代码远程连接Hive,查询Hive表数据并将数据转存到本地。另外,用Scala查询到数据后,我们还可以将查询到的ResultSet集合转化为RDD或者DataFrame进行scala的算子运算,非常方便,这些实现,笔者会后续更新。 ...原创 2018-04-25 19:06:33 · 5930 阅读 · 0 评论 -
ES Mapping及常用API小结
ES中的MappingMapping就是对索引库中索引的字段名称及其数据类型进行定义,类似于mysql中的表结构信息,但ES中的mapping比数据库灵活很多,它可以动态识别字段。一般不需要指定mapping字段都可以,因为ES会自动根据数据格式识别它的类型,如果你需要对某些字段添加特殊属性(如:定义使用其他分词器、是否分词、是否存库等),就必须手动添加mapping查询索引库中mapping信息...原创 2018-04-19 17:53:06 · 1879 阅读 · 0 评论 -
ES的Java API实现增删改查
/** * @MethodName: bulkCreateIndexByJSONArray * @Description: 使用bulk批量处理JSONArray创建索引导入文档,每BatchSize条文档执行一次bulk * @Param: * * @param client TransportClient对象实例 * @param js...原创 2018-04-13 17:48:42 · 3603 阅读 · 0 评论 -
Ubantu14.04.2安装HUE3.12.0
前提:HDFS集群、HIve和MySQL都已经安装完毕1.在ubantu中安装maven,下载好安装包,解压并配置环境变量2.安装hue的依赖包,需要以下的依赖包或者,一行命令安装所有依赖包sudo apt-get install ant gcc g++ libkrb5-dev libffi-dev libmysqlclient-dev libssl-dev libsasl2-dev libsas...原创 2018-04-18 16:11:26 · 327 阅读 · 0 评论 -
Hadoop集群升级HA高可用集群配置
在原有的Hadoop集群的基础上,配置HA高可用集群,简单修改配置文件,具体配置及启动方案如下:(先停止Hadoop集群)修改core-site.xml(指定ZK集群,使ZK能够监督master的运行,启动备用节点,我的主节点主机名为Kate,并非master,配置HA的时候改名为apollo,个人喜好,请注意,酌情忽略此细节)未修改之前的core-site.xml修改之后:就是增加一个prope...原创 2018-04-16 16:58:54 · 2590 阅读 · 7 评论 -
FHDFS搭建指南
F: freestyleHDFS: Hadoop分布式文件系统FHDFS :花式Hadoop分布式文件系统ZooKeeper主要应用在分布式系统中,连接不同的主机节点,我的理解是ZooKeeper这个东西就像建立在分布式系统、hadoop或HBase之上的一个国家机器,高度集权,同步管理各个节点我们知道,Linux系统是一个可以多用户同时操作的系统,在一个系统上可以多用户同时远程连接操作这台...原创 2018-04-14 11:56:17 · 345 阅读 · 0 评论