大数据
文章平均质量分 55
开心自由天使
这个作者很懒,什么都没留下…
展开
-
hive 执行错误 com.google.common.base.Preconditions.checkArgument(ZLjava/lang/String;Ljava/lang/Object;)V
hive com.google.common.base.Preconditions.checkArgument(ZLjava/lang/String;Ljava/lang/Object;)V原创 2022-03-30 18:19:07 · 3292 阅读 · 0 评论 -
hive 莫名其名爆出无法识别hadoop 版本
hive,hadoop原创 2022-03-30 18:02:37 · 2667 阅读 · 0 评论 -
influxdb TICK商业版集群部署实战记录
influxDb Enterprise 安装官方安装文档:https://docs.influxdata.com/enterprise_influxdb/v1.8/install-and-deploy/production_installation/data_node_installation/安装完后的效果截图:性能测试截图:本次安装使用虚拟机 centos1810_kernel4.19.56_docker18.09_jdk1.8__python3.7.1 虚拟机模版 在Mac os p原创 2021-06-03 17:51:47 · 921 阅读 · 0 评论 -
一篇文章搞懂 数据海洋 数据湖 数据池 数据水坑 数据孤岛 数据仓库 基本概念
一。数据湖由数据驱动的决策非常流行。从数据科学,机器学习和高级分析到实时仪表板,决策者都需要数据来帮助做出决策。该数据需要一个家,而数据湖是创建该家的首选解决方案。该术语由Pentaho的CTO James Dixon发明并首次描述,他在博客中写道:“如果您将数据集市视为瓶装水的存储库,经过清洗,包装和结构化以便于使用,那么数据湖就很大了。水体处于更自然的状态。数据湖的内容从源头流入整个湖中...原创 2019-11-13 17:31:40 · 9780 阅读 · 0 评论 -
kettle 安装实录
1.部署mysql 实例linyingjiedeMacBook-Pro:5.x linyingjie$ more start-mysql-docker.sh#!/bin/bashdocker stop mysqldocker rm mysqldocker run -d --name mysql \-p 3306:3306 \-v `pwd`/data:/var/lib/mys...原创 2019-07-04 19:25:10 · 408 阅读 · 0 评论 -
Hadoop发行:Cloudera vs Hortonworks - 哪一个更好?
Hadoop发行:Cloudera vs Hortonworks - 哪一个更好?cloudera,hadoop认证,hortonworks 14331 0 Natasha 24/05/2017大数据已经成为一种流行语,几乎成为包含大多数行业的所有业务的常态。随着大数据席卷整个行业,领先的企业正在寻找更简单有效的方法来分析和利用大量数据。当然,强大的开源软件框架Apache Hadoop是救世...翻译 2019-03-04 11:08:12 · 4959 阅读 · 1 评论 -
Ceph集群部署实战
建议系统内核升级到4.x,不然容易出各种问题,不要给自己找不必要的麻烦。[root@ceph-admin ceph-ansible-3.1.7]# more hosts[admins]10.20.4.10[osds]10.20.4.2110.20.4.2210.20.4.23[rgws]10.20.4.1110.20.4.1210.20.4.13[mds]10.20.4....原创 2018-12-21 20:15:00 · 1312 阅读 · 0 评论 -
云端数据存储---Ceph是统一存储解决方案
Ceph是统一存储解决方案从存储供应商的角度来看,统一存储被定义为从单一平台访问基于文件的网络连接存储(NAS)和基于块的存储区域网络(SAN)。 NAS和SAN技术在20世纪90年代末和2000年初开始流行,但是当我们展望未来时,我们确信传统的专有NAS和SAN技术可以在50年后管理存储需求吗?他们是否拥有处理数十亿数据所需的资源?使用Ceph,统一存储这个术语不仅仅意味着传统存储供应商声称...原创 2018-12-05 23:28:12 · 1128 阅读 · 0 评论 -
Zeppelin0.8添加Hive3.1.1解释器
转至元数据结尾创建: 林英杰,最新修改: 大约1分钟以前 转至元数据起始关键参数:hive.driver org.apache.hive.jdbc.HiveDriverhive.url jdbc:hive2://hive服务器主机IP:10000hive.user hive用户: hivehive.password hive密码:前提条件:hive2服务器正常,可以通过DBSc...原创 2018-11-29 15:17:11 · 686 阅读 · 0 评论 -
spark如何使用sqlite数据库的数据
安装sqlite3brew install sqlite2.sqlite3 命令操作sqlite3 命令操作sqlite3 china-poi.sqlite.help 显示帮助.quit 退出sqlite> .output ChinaPOI.csvsqlite> select * from ChinaPOI;sqlite> .output stdoutsq...原创 2018-11-22 14:54:21 · 1423 阅读 · 0 评论 -
hadoop错误解决办法:-------HDFS上传文件保存错误或速度很慢
出现症状:2018-11-22 11:28:12,711 WARN hdfs.DataStreamer: Abandoning BP-2142139802-10.20.2.1-1536240602405:blk_1073765062_242892018-11-22 11:28:12,712 WARN hdfs.DataStreamer: Excluding datanode DatanodeI...原创 2018-11-22 11:51:59 · 3593 阅读 · 0 评论 -
如何查看spark版本和scala版本
1.进入命令行状态windows 电脑方法一:在系统桌面左下侧搜索栏输入CMD或者命令提示符,右键点击命令提示符在右键菜单中点击:以管理员身份运行,可以打开系统【管理员命令提示符】窗口。苹果电脑: 打开终端在 Mac 上打开 Finder 窗口,然后在「应用程序」目录中直接搜索“终端”关键字,也可以搜索到;2.在命令行窗口输入,然后回车 java -version,确认你的java...原创 2018-11-21 05:48:29 · 43963 阅读 · 2 评论 -
Hive性能优化指南
Hive 性能优化指南Hive是Hadoop中数PB数据的SQL查询标准。它提供对HDFS中数据的类似SQL的访问,使Hadoop可用作数据仓库。 Hive查询语言(HQL)在关系数据库中具有与标准SQL类似的语义和功能,因此经验丰富的数据库分析人员可以轻松掌握它。 Hive的查询语言可以在不同的计算引擎上运行,例如MapReduce,Tez和Spark。Hive的元数据结构在HDFS之上提供...原创 2018-11-14 14:21:21 · 683 阅读 · 0 评论 -
Centos7 安装HUE 实录并设置开机自启动
使用了HUE的docker 版本后,发现了很多问题,于是干脆自己手动安装一个。[root@hadoop-namenode1 mysql]# uname -aLinux hadoop-namenode1 4.4.58-1.el7.elrepo.x86_64 #1 SMP Thu Mar 30 11:18:53 EDT 2017 x86_64 x86_64 x86_64 GNU/Linux[ro...原创 2018-11-14 14:08:29 · 599 阅读 · 0 评论 -
flink基础知识----水印处理
水印到目前为止,我们一直在从管道作者或数据科学家的角度来看待流处理。第2章介绍了水印作为回答事件时间处理发生位置以及处理时间结果何时实现的基本问题的答案的一部分。在本章中,我们处理相同的问题,而不是从流处理系统的底层机制的角度来看。查看这些机制将有助于我们激发,理解和应用水印的概念。我们将讨论如何在数据入口处创建水印,它们如何在数据处理管道中传播,以及它们如何影响输出时间戳。我们还演示了水印如何...翻译 2018-11-12 15:56:22 · 4598 阅读 · 0 评论 -
Flink基础知识--何时以及如何使用流处理模式
Going Streaming:何时以及如何我们只是观察批量引擎上窗口管道的执行情况。但是,理想情况下,我们希望我们的结果具有较低的延迟,并且我们还希望本地处理无界数据源。切换到流媒体引擎是朝着正确方向迈出的一步,但是我们之前等待我们的输入被全部消耗以生成输出的策略已不再可行。输入触发器和水印。什么时候:关于触发器的精彩事情是触发器是很棒的事情!触发器提供了问题的答案:“在处理时间内是否实...翻译 2018-11-12 10:59:11 · 1141 阅读 · 0 评论 -
Flink基础知识 ---事件时间与处理时间
事件时间与处理时间要谈论无限数据处理,需要清楚地了解所涉及的时间域。在任何数据处理系统中,通常有两个我们关心的时间域:事件时间这是事件实际发生的时间。处理时间这是在系统中观察事件的时间。并非所有的用例都关心事件时间(如果你的事情没有,那么万岁!你的生活会更容易),但很多人都这么做。示例包括表征用户随时间的行为,大多数计费应用程序以及许多类型的异常检测,仅举几例。在理想的世界中,事件时间和处理...翻译 2018-11-11 20:30:11 · 2854 阅读 · 0 评论 -
Flink基础知识--无界数据处理
无界数据:流式传输与大多数基于批处理的无界数据处理方法的临时性质相反,流式系统是针对无界数据构建的。正如我们之前所讨论的,对于许多真实的分布式输入源,您不仅会发现自己处理无界数据,还会处理以下数据:事件时间高度无序,这意味着您需要某种时间 如果要在发生它们的上下文中分析数据,则在管道中进行基于shuffle。在不同的事件时间偏差中,意味着你不能只假设你总是会在某个恒定的时间ε中看到给定事件时间X...翻译 2018-11-11 20:36:44 · 2411 阅读 · 2 评论 -
现代大数据的8大特点
大数据不仅仅是大量数据。在这里,Big这个词指的是大范围的数据。这个领域的一个众所周知的谚语是用字母V开头的三个单词来描述大数据:数据量大,速度和变化。但分析和数据科学界已经看到数据在其他方面有所不同,除了大数据的三个基础,如准确性,可变性,波动性,可视化和价值。到目前为止提到的不同Vs解释如下:1.数据量大(Volume):这是指以秒为单位生成的数据量。今天世界上90%的数据都是在过去两年中创...原创 2018-11-13 01:03:29 · 7345 阅读 · 0 评论