大数据
微风--轻许--
纵一生,与君相伴,不负岁月,不负卿 ...
展开
-
解决:Exception in thread main java.lang.NoSuchMethodError: com.google.common.util.concurrent.MoreExe
1.报错:Exception in thread "main" java.lang.NoSuchMethodError: com.google.common.util.concurrent.MoreExecutors.directExecutor()Ljava/util/concurrent/Executor;2. 解决方法:问题当项目中同时集成Hbase和Elasticsearch时,经常遇到依赖包冲突的问题,如com.google.guava,org.joda等。造成guava冲突是因转载 2020-05-27 13:51:15 · 13003 阅读 · 0 评论 -
apache sgoop 导入数据到 oracle、导出数据到 oracle 实现
业务场景:是在oracle 数据库和 hive 数据库中 ,有多个相同结构的表,要求数据从2个库定时双向同步。(导出时可以只导出部分字段,则此时 hive 库和 oracle 库中表结构可以并非完全一致)1. 写一个文本文档,把要导入的表名和库名先编辑好,格式如 oracle_table_list_append.txt :wate.BUSI_xxxwate.xxx_xxx_INFOwate.xxx_USER_xxx... # wate 是 oracle 数据库名, BUSI_xxx.原创 2020-05-26 14:10:09 · 1446 阅读 · 0 评论 -
解决:elasticsearch 更新报错:The number of object passed must be even but was [1]
1. 错误的代码写法: @Autowired private ElasticsearchOperations esOperations; public void updateAxxxData(List<AxxxModel> axxxs) { for (AxxxModel al : axxxs) { UpdateQuery update = new UpdateQuery(); update.setIndexNa原创 2020-05-21 14:08:03 · 4639 阅读 · 0 评论 -
hue 查询 hbase 操作相关参考
界面操作说明进入hue中的hbase进入表的查询界面界面说明查询语句,表示结束查询,可以不加主键查询输入主键rowkey1,rowkey2说明:只输入主键查询例1:00000051|1538229142例2:00000051|1538229142,00000051|1538230148根据主键的前缀查询row_prefix*,说明:根据主键的前几位进行模糊查询,默认只显示一条数据;通过+n-1来显示n条数据例1:00000051|*例2:显示10条数据0000...转载 2020-05-21 11:39:47 · 2477 阅读 · 1 评论 -
ROW_NUMBER() OVER() 函数用法详解 (分组排序,多例子)
语法格式:row_number() over(partition by 分组列 order by排序列 desc)row_number() over()分组排序功能:在使用 row_number() over()函数时候,over()里头的分组以及排序的执行晚于 where 、group by、order by 的执行。例一:表数据:create table TEST_...转载 2020-05-07 16:52:28 · 9618 阅读 · 0 评论 -
解决: Error while compiling statement: FAILED: ParseException line 23:13 extraneous input ‘(‘ expectin
1. hive 执行sql,报错: Error while compiling statement: FAILED: ParseException line 23:13 extraneous input '(' expecting ) near ')' in subquery source2. sql 如下 :SELECT pxx_id, pxxx_name, xxx, ...原创 2020-05-07 14:14:48 · 33501 阅读 · 2 评论 -
解决:Error while compiling statement: FAILED: SemanticException [Error 10007]: Ambiguous column refere
报错:Error while compiling statement: FAILED: SemanticException [Error 10007]: Ambiguous column reference creationtime in bcpt原创 2020-04-23 23:30:22 · 29136 阅读 · 0 评论 -
kibana 安装
附另 2 文章:elasticsearch-head 安装elasticsearch 安装( 阿里云ECS )、远程访问、启动报错处理我的 elasticsearch 是6.7.0 版本的,kibana 对版本敏感,要和 elasticsearch 同版本。1. 下载好和 elasticsearch 同版本的 kibana 压缩包,放到相应目录下,并解压 : tar -...原创 2020-04-10 21:48:39 · 581 阅读 · 0 评论 -
elasticsearch 安装( 阿里云ECS )、远程访问、启动报错处理
1. 从网上下载到 linux 版本的 tar 包:elasticsearch-6.7.0.tar.gz ,我是直接百度网盘搜索的。2. 安装方式:解压即可用。tar -zxvfelasticsearch-6.7.0.tar.gz进入目录/elasticsearch-6.7.0/bin , 并执行启动命令:./elasticsearch安装好后可以查看版本:...原创 2020-04-09 21:36:14 · 1940 阅读 · 1 评论 -
elasticsearch-head 安装
1. 首先安装好 git、node.js、npm、cnpmyum -y install gitsudo yum install epel-releasesudo yum install nodejsnode --version // 安装好后查看版本 sudo yum install npm --enablerepo=epel sudo npm install -g e...原创 2020-04-10 00:13:59 · 618 阅读 · 0 评论 -
写给大数据开发初学者的话4
见:http://lxw1234.com/archives/2016/11/795.htm转载 2017-06-14 17:21:38 · 945 阅读 · 0 评论 -
写给大数据开发初学者的话3
见:http://lxw1234.com/archives/2016/11/787.htm如果你已经按照《写给大数据开发初学者的话2》中第三章和第四章的流程认真完整的走了一遍,那么你应该已经具备以下技能和知识点:知道如何把已有的数据采集到HDFS上,包括离线采集和实时采集;你已经知道sqoop(或者还有DataX)是HDFS和其他数据源之间的数据交换工具;你已经转载 2017-06-14 17:19:10 · 885 阅读 · 0 评论 -
写给大数据开发初学者的话5
见:http://lxw1234.com/archives/2017/01/832.htm至此,你的大数据平台底层架构已经成型了,其中包括了数据采集、数据存储与计算(离线和实时)、数据同步、任务调度与监控这几大模块。接下来是时候考虑如何更好的对外提供数据了。第九章:我的数据要对外通常对外(业务)提供数据访问,大体上包含以下方面:离线:比如,每天将转载 2017-06-14 17:23:08 · 910 阅读 · 0 评论 -
2 分钟读懂大数据框架 Hadoop 和 Spark 的异同
见:https://www.oschina.net/news/73939/hadoop-spark- difference谈到大数据,相信大家对Hadoop和Apache Spark这两个名字并不陌生。但我们往往对它们的理解只是提留在字面上,并没有对它们进行深入的思考,下面不妨跟我一块看下它们究竟有什么异同。解决问题的层面不一样首先,Hadoop和A转载 2017-05-23 17:31:55 · 1022 阅读 · 0 评论 -
写给大数据开发初学者的话
见:http://lxw1234.com/archives/2016/11/779.htm导读:第一章:初识Hadoop第二章:更高效的WordCount第三章:把别处的数据搞到Hadoop上第四章:把Hadoop上的数据搞到别处去第五章:快一点吧,我的SQL第六章:一夫多妻制第七章:越来越多的分析任务第八章:我的数据要实时第九章:我的数转载 2017-06-14 16:47:26 · 835 阅读 · 0 评论 -
简单理解Hadoop(Hadoop是什么、如何工作)
一、Hadoop主要的任务部署分为3个部分,分别是:Client机器,主节点和从节点。主节点主要负责Hadoop两个关键功能模块HDFS、Map Reduce的监督。当Job Tracker使用Map Reduce进行监控和调度数据的并行处理时,名称节点则负责HDFS监视和调度。从节点负责了机器运行的绝大部分,担当所有数据储存和指令计算的苦差。每个从节点既扮演者数据节点的角色又冲当与他们主节点通信...转载 2017-05-23 16:17:39 · 59519 阅读 · 1 评论 -
写给大数据开发初学者的话2
见 : http://lxw1234.com/archives/2016/11/782.htm如果你已经按照《写给大数据开发初学者的话》中第一章和第二章的流程认真完整的走了一遍,那么你应该已经具备以下技能和知识点:0和Hadoop2.0的区别;MapReduce的原理(还是那个经典的题目,一个10G大小的文件,给定1G大小的内存,如何使用Java程序统计出现次数转载 2017-06-14 17:16:21 · 1017 阅读 · 0 评论