![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
lonely玩世不恭
这个作者很懒,什么都没留下…
展开
-
Elasticsearch Java API的基本使用大全
转载自:https://www.cnblogs.com/shizhijie/p/10332970.html说明在明确了ES的基本概念和使用方法后,我们来学习如何使用ES的Java API.本文假设你已经对ES的基本概念已经有了一个比较全面的认识。客户端你可以用Java客户端做很多事情:执行标准的index,get,delete,update,search等操作。在正在运行的集群上执行管理任务。但是,通过官方文档可以得知,现在存在至少三种Java客户端。Transport ClientJ转载 2020-06-29 15:55:28 · 3639 阅读 · 0 评论 -
maven打包时找不到主类
打包时找不到主类[ERROR] Failed to execute goal org.springframework.boot:spring-boot-maven-plugin:2.1.12.RELEASE:repackage (repackage) on project job-etl: Execution repackage of goal org.springframework.boot:spring-boot-maven-plugin:2.1.12.RELEASE:repackage failed原创 2020-06-02 14:33:32 · 1411 阅读 · 0 评论 -
org.apache.hadoop.hive.ql.metadata.HiveException: java.lang.RuntimeException: Unable to instantiate
org.apache.hadoop.hive.ql.metadata.HiveException: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient解决办法:1、在hive-site.xml中增加配置hive.metastore.localfalsehive.metastore.uristhrift://192.168原创 2020-06-02 14:28:38 · 1410 阅读 · 0 评论 -
org.apache.spark.rpc.netty.Inbox : Ignoring error
org.apache.spark.rpc.netty.Inbox : Ignoring error解决办法:代码中加.config(“spark.dynamicAllocation.enabled”原创 2020-06-02 14:22:21 · 785 阅读 · 0 评论 -
ImpalaRuntimeException:The requested number of tablets is over the maximum permitted at creation tim
ImpalaRuntimeException: Error creating Kudu table ‘impala::kudu_pdw.v_checkinfo’ CAUSED BY: NonRecoverableException: The requested number of tablets is over the maximum permitted at creation time (60). Additional tablets may be added by adding range partit原创 2020-06-02 14:21:08 · 568 阅读 · 0 评论 -
DEBUG org.apache.hadoop.hive.serde2.lazy.LazyDouble - Data not in the Double data type range so con
DEBUG org.apache.hadoop.hive.serde2.lazy.LazyDouble - Data not in the Double data type range so converted to null. Given data is :java.lang.NumberFormatException: empty StringSparlkSql读取hive中数据时报的异常,问题是hive的数据类型转换,decimal无法直接转化为double,可以尝试转换成string,后面hiv原创 2020-06-02 14:17:22 · 529 阅读 · 0 评论 -
spark提交作业时的参数说明
–master master 的地址,提交任务到哪里执行,例如 spark://host:port, yarn, local–deploy-mode 在本地 (client) 启动 driver 或在 cluster 上启动,默认是 client–class 应用程序的主类,仅针对 java 或 scala 应用–name 应用程序的名称–jars 用逗号分隔的本地 jar 包,设置后,这些 jar 将包含在 driver 和 executor 的 classpath 下–packages 包含.原创 2020-05-15 15:02:05 · 384 阅读 · 0 评论 -
CDH 组件使用的端口
转载自:https://blog.csdn.net/liangkiller/article/details/102824447所有端口都是使用TCP访问要求: Internal(内部)用于组件间通信,External(外部)可用于组件间通信或用户访问;Hadoop组件 服务 端口 访问要求 配置项 QualifierHDFS DataNode 50010 外部 dfs.datanode.address 1004 外部 dfs.datanode.address Secur转载 2020-05-13 16:31:19 · 1829 阅读 · 0 评论 -
Spark参数详解 (Spark1.6)
Spark参数详解 (Spark1.6)参考文档:Spark官网在Spark的web UI在“Environment”选项卡中列出Spark属性。这是一个很有用的地方,可以检查以确保属性设置正确。注意,只有通过spark-defaults.conf, SparkConf, 或者 command line配置过的属性才会出现 。对于所有其他配置属性,控制内部设置的大多数属性具有合理的默认值,在没有额外配置的额情况下,可以假定使用默认值。应用级别的参数参数名称 默认值 释义 注释spark.ap转载 2020-05-13 11:44:44 · 379 阅读 · 0 评论 -
Elasticsearch的安装,Ubuntu,Linux下安装配置ES,搭建ES集群
安装Elasticsearch1、解压elasticserch:安装包kibana:交互工具tar -zxvf elasticsearch-6.6.0.tar.gz -C /home/briup/softwaretar -zxvf kibana-6.6.0-linux-x86_64.tar.gz -C /home/briup/software2、创建软链接ln -sf /home/briup/software/elasticsearch-6.6.0 /home/briup/links/el原创 2020-05-08 18:03:23 · 601 阅读 · 0 评论 -
hbase导出数据的方式
hbase org.apache.hadoop.hbase.mapreduce.Export aliyun_webpage /aliyun_webpage_datahbase org.apache.hadoop.hbase.mapreduce Export 表名 数据文件位置hbase org.apache.hadoop.hbase.mapreduce.Driver export 表名 ...原创 2020-05-06 16:08:18 · 540 阅读 · 0 评论 -
storm学习从基础到入门-基础概念介绍
storm:实时处理引入:流式计算 逻辑一般简单 效率高(内存中运算,一遍取一边运算,能达到每秒55M的吞吐)处理日志,拿到ip,分区域类似:spark streaming,kafka;生产者 消费者(storm,spark…) 做数据传输flume:高吞吐量分布式采集组件,用法以配置为主,source target滑动窗口案例:实时推荐,预警:疾病预警,趋势运算:报表概念:...原创 2020-05-06 16:00:24 · 188 阅读 · 0 评论 -
大数据系统架构及技术体系介绍详细文档
作者:玩世不恭 邮箱:18103410154@163.com一、数据采集1、日志采集系统(1)、Flume:Flume最早是Cloudera提供的日志收集系统,目前是Apache下的一个孵化项目,是一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处...原创 2020-05-06 15:44:30 · 2469 阅读 · 0 评论 -
hadoop学习高级篇
hadoop笔记快照:游戏存档,关机存档一、HDFS1、HDFS优缺点2.全分布式搭建(1).三台机器:master、slave1、slave2(2).修改每台服务器的hosts文件,添加以下内容 [Master的ip] Master [Slave1的ip] Slave1 [Slave2的ip] Slave2 分布式配置可以保留localhost,也可以删掉,让 Master...翻译 2020-04-30 16:12:17 · 258 阅读 · 0 评论 -
Hadoop学习从基础到精通
##Bigdata#day1tar zxvf weather.tgz退出安全模式: hdfs dfsadmin -safemode leave大数据:通过传统数据库存储技术以及数据处理工具不能处理的庞大而复杂的数据的集合大数据的四个特点:数量大,速度快,种类多,价值密度低大数据处理,大数据分析Hadoop离线分析Spark在线分析,实时分析大数据存储:HDFS: Hadoo...原创 2020-04-30 16:11:40 · 345 阅读 · 0 评论 -
JDBC完整笔记
JDBC:一、Why JDBC我们一直说,计算机是用来帮助人们进行快速运算的。运算最根本的依据是数据。那么我们需要有操作的数据的来源,并且最终计算完成后,需要数据能够长久的保存,也就是数据能够持久化。持久化: 写入到狭义上讲 内存对象 -----------》持久化介质(磁带,磁盘,文件等。。)如果直接写入文件中,可以在应用程序中使用I/O操作来处理数据,但是...翻译 2020-04-30 16:07:16 · 595 阅读 · 0 评论