大数据
文章平均质量分 63
大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。
空~自由
懒虫,心血来潮更一下
展开
-
kingbase读取blob,下载文件注意事项
在业务输出的时候,判断是否是人大金仓数据库,如果是人大金仓数据库,就进行转换,如果不是人大金仓就走原先的流程。由于人大金仓存储的blob是16进制,且前后前后还包含了0字节。导致我们原先下载文件的方法有异常。DbUtils.java 转换方法提取到公共包。原创 2024-08-31 21:57:05 · 351 阅读 · 0 评论 -
ElasticSearch添加xpack认证
要重新申明es client,重新初始化TransportClient 以及ElasticsearchTemplate。说明:如果不需要xpcak认证,则只需要将设置。application.yml 配置。三、es整合xpack实现。其他代码保持不变即可。一、新增xpack依赖包。二、 在其他工程中引用。然后 进入工程 执行。原创 2024-08-31 21:26:15 · 556 阅读 · 0 评论 -
整合ElasticSearch,出现IllegalStateException: availableProcessors is already set to [12], rejecting [12]
问题:整合es,出现如下异常信息问题原因:由于es的netty-transport版本冲突导致的解决方法:方法一:在启动类main方法中设置@SpringBootApplicationpublic class WebApplication { public static void main(String[] args) { // 解决netty-transport版本冲突 System.setProperty("es.set.netty.ru原创 2020-09-08 12:13:21 · 2287 阅读 · 2 评论 -
有赞百亿级日志系统架构设计
日志是记录系统中各种问题信息的关键,也是一种常见的海量数据。随着有赞业务的发展与增长,每天都会产生百亿级别的日志量,日志平台也随着业务的不断发展经历了多次改变和升级。有赞从 16 年就开始构建适用于业务系统的统一日志平台,负责收集所有系统日志和业务日志,转化为流式数据,通过 flume 或者 logstash 上传到日志中心(kafka 集群),然后供 Track、Storm、Spark 及其它系统实时分析处理日志,并将日志持久化存储到 HDFS 供离线数据分析处理,或写入 ElasticSearch转载 2020-12-10 14:42:08 · 190 阅读 · 0 评论 -
Yarn和Spark的StandAlone调度模式对比
Yarn和Spark的StandAlone调度模式对比ResouceManager Master 管理子节点、资源调度、接收任务请求NodeManger Worker 管理当前节点,并管理子进程YarnChild Executor 运行真正的计算逻辑的(Task)Client SparkSubmit (Client + ApplicaitonMaster)提交app,管理该任务的Execut...原创 2020-08-02 19:01:08 · 404 阅读 · 0 评论 -
spark系列之spark-shell详解
Spark Shell是一个交互式的命令行,提供了一种学习API的简单方式,以及一个能够进行交互式分析数据的强大工具,他也是一个客户端,可以使用scala编写(scala运行与Java虚拟机可以使用现有的Java库)或使用Python编写。方便学习和测试,用于提交spark应用程序。spark-shell的本质是在后台调用了spark-submit脚本来启动应用程序的。启动spark-shell,命令如下:/spark-2.2.0-bin-hadoop2.7/bin/spark-shell.原创 2020-08-02 11:16:19 · 3739 阅读 · 0 评论 -
spark系列之spark-submit提交spark程序
通过spark-submit提交第一个spark 应用到集群中运行bin/spark-submit --master spark://node-4:7077,node-5:7077 --class org.apache.spark.examples.SparkPi --executor-memory 2048mb --total-executor-cores 12 --executor-cores 1 examples/jars/spark-examples_2.11-2.2.0.jar 1000原创 2020-08-02 10:48:57 · 1560 阅读 · 1 评论 -
Apache Ranger 介绍与使用
1.Ranger简介Apache Ranger提供一个集中式安全管理框架, 并解决授权和审计。它可以对Hadoop生态的组件如HDFS、Yarn、Hive、Hbase等进行细粒度的数据访问控制。通过操作Ranger控制台,管理员可以轻松的通过配置策略来控制用户访问权限。优点:提供了细粒度级(hive列级别)基于访问策略的权限模型权限控制插件式,统一方便的策略管理支持审计日志,可以...原创 2020-03-07 10:41:08 · 4939 阅读 · 1 评论 -
kerberos
kerberos1.kerberos 介绍Kerberos是一种基于对称密钥的身份认证协议,它作为一个独立的第三方的身份认证服务,可以为其它服务提供身份认证功能,且支持SSO(即客户端身份认证后,可以访问多个服务如HBase/HDFS等)。Kerberos协议主要用于计算机网络的身份鉴别(Authentication), 其特点是用户只需输入一次身份验证信息就可以凭借此验证获得的票据(tic...原创 2020-02-04 11:59:00 · 1939 阅读 · 0 评论