为CDH 5.7集群添加Kerberos身份验证及Sentry权限控制

4. 为CDH 5集群添加Kerberos身份验证 4.1 安装sentry 1、点击“操作”,“添加服务”; 2、选择sentry,并“继续”; 3、选择一组依赖关系 4、确认新服务的主机分配 5、配置存储数据库;   在mysql中创建对应用户和数据库: ? 1 ...

2019-01-15 10:29:08

阅读数 29

评论数 0

Kerberos安装及使用

2. 安装 Kerberos2.1. 环境配置   安装kerberos前,要确保主机名可以被解析。   主机名 内网IP 角色 Vmw201 172.16.18.201 Master KDC Vmw202 172.16.18.202 Kerberos client ...

2019-01-15 10:26:50

阅读数 24

评论数 0

Kerberos认证原理简介

1.1 What is Kerberos 1.1.1 简单介绍   Kerberos是一个用于鉴定身份(authentication)的协议, 它采取对称密钥加密(symmetric-key cryptography),这意味着密钥不会在网络上传输。在Kerberos中,未加密的密码(unenc...

2019-01-15 10:06:32

阅读数 21

评论数 0

hive的用户和用户权限

HiverServer2支持远程多客户端的并发和认证,支持通过JDBC、Beeline等连接操作。hive默认的Derby数据库,由于是内嵌的文件数据库,只支持一个用户的操作访问,支持多用户需用mysql保存元数据。现在关心的是HiveServer如何基于mysql元数据库管理用户权限,其安全控制...

2019-01-12 17:25:46

阅读数 69

评论数 0

CDH基于Kerberos身份认证和基于Sentry的权限控制功能的测试示例

1. 准备测试数据 cat /tmp/events.csv 10.1.2.3,US,android,createNote 10.200.88.99,FR,windows,updateNote 10.1.2.3,US,android,updateNote 10.200.88.77,FR,ios,...

2019-01-09 16:25:37

阅读数 2169

评论数 1

Hive的客户端界面工具–SQuirrel SQL Client--详细安装以及连接Hive过程

 SQuirrel SQL Client是一款支持Hive的可视化工具,是市面上少数支持Hive中比较好用的,看下如何安装使用吧,下面是非常详细的安装过程。 1.下载客户端 SQuirrel SQL Client的官网及下载地址为:http://squirrel-sql.sourceforge...

2019-01-09 14:48:31

阅读数 46

评论数 0

企业级数据单表全量增量抽取数据模型(Kettle版)

最近在使用Kettle进行ETL的工作,现在总结一下。需求是将MYSQL中的表数据增量备份到HIVE仓库中,第一次是全量。我只想给大伙来点实用的,避免大家踩坑。Kettle是一个基于图形化的ETL工具,也可以用于集成各种作业,比如Sqoop,MR,Hive这些,越来越多的企业在使用。   本文...

2018-11-08 18:09:00

阅读数 80

评论数 0

大数据----机器学习---神经网络

1.神经网络与深度学习的发展历程: 2.神经网络与大脑神经元 神经网络的起源、结构、个体间的信息交互方式是以我们大脑神经元为模板的,我们的大脑神经元如下所示:   3.神经网络源头--M-P神经元模型 M-P 模型问题: • 模型不能训练,也就是没有学习的过程: 可以说不...

2018-09-25 16:33:57

阅读数 289

评论数 0

大数据----hive

1.Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件 映射为一张数据库表,并提供类 SQL 查询功能。本质是将 SQL 转换为 MapReduce 程序。主要用途:用来做离线数据分析,比直接用 MapReduce 开发效率更高 2.离线项目在使用hive的前后区别 之...

2018-09-23 10:40:45

阅读数 116

评论数 0

大数据----数据质量检测

1.在我们进行数据分析之前要对数据进行检测,数据质量是保证数据应用的基础,它的评估标准主要包括四个方面:完整性、一致性、准确性、及时性。评估数据是否达到预期设定的质量要求,就可以通过这四个方面来进行判断。 2.完整性指的是数据信息是否存在缺失的状况,数据缺失的情况可能是整个数据记录缺失,也可能是...

2018-09-21 18:28:12

阅读数 273

评论数 0

大数据----flume

1.概述: Flume 是 Cloudera 提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的软件。 核心是把数据从数据源(source)收集过来,之后缓存一下数据(channel),然后把数据发送到指定目的地(sink),最后删除缓存中的数据。 不仅仅满足一般的数据采集需求...

2018-09-21 15:37:32

阅读数 48

评论数 0

大数据-----大数据-机器学习-人工智能

1.大数据与机器学习的关系: 大数据领域我们做的是数据的存储和简单的统计计算,机器学习在大数据的应用是为了发现数据的规律或模型,用机器学习算法对数据进行计算的到的模型,从而决定我们的预测与决定的因素(比如在大数据用户画像项目里,生成的特殊用户字段)。 2.大数据在机器学习的应用 目前市场实际...

2018-09-21 10:00:46

阅读数 286

评论数 0

大数据-----网站流量日志数据采集--socket机制

1.数据采集的重要性 当前市场环境下,数据对于一个企业的重要性堪比汽车对于石油的重要性,而我们数据采集的手段,采集的准确性,采集的性能,以及采集的内容都是决定了数据能否最终被我们实用起来。 2.数据采集的原理: 埋点:我们在前端会写一个采集的脚本(一段js代码),当用户发起http请求访问的...

2018-09-20 15:53:51

阅读数 134

评论数 0

大数据------MapReduce

1.MapReduce思想: 简单理解就是“天下大事分久必合,合久必分”,MapReduce就完美的体现“分”与“和”的思想。 Map负责“分”,把复杂的任务分解成多个简单的任务,之后进行并行处理的动作。但是前提是:这个复杂的大任务能够进行拆分,并且拆分之后各个子任务之间没有依赖关系。 Re...

2018-09-17 15:38:16

阅读数 99

评论数 0

大数据------电商类网站的大数据应用之用户画像的简单架构搭建

1.大数据时代已经到来,企业希望从用户行为数据中分析出有价值的东西,利用大数据来分析用户的行为与消费习惯,可以预测商品的发展的趋势,提高产品质量,同时提高用户满意度。 2.什么是用户画像: 通过不同的维度,去描述一个人,认识一个人,了解一个人。用户画像也叫用户信息标签化、客户标签;根据用户社会...

2018-09-13 16:51:41

阅读数 647

评论数 1

大数据-----spark底层通信交互简单原理与实现

1.spark是什么? Spark是一个基于内存的大数据计算引擎。提高了在大数据环境下数据处理的实时性,spark仅仅涉及到了数据的计算,没有涉及到数据的存储。 Spark是由Scala语言编写的, 2.什么是scala Scala 是一种多范式的编程语言,其设计的初衷是要集成面向对象编程...

2018-09-06 18:49:41

阅读数 208

评论数 0

大数据-------推荐系统简易流程与算法使用

1.推荐系统是一个非常复杂的系统,需要很多子模块、多子系统之间协同完成,但是其系统原理精髓是猜出用户喜欢来完善系统的推荐功能、提高用户对该软件的依赖性,也可以提高广告的接受率(相关广告的定点推送,比如你是搞it的,可以对你推荐各种型号的假发)。 2.那么怎样计算用户的喜好? 通过收集用户的所有...

2018-09-02 21:09:38

阅读数 522

评论数 0

大数据-------storm集群搭建与任务处理

1.在网上下载storm稳定版本的安装包,导入集群里面的一台服务器上。 2.确定安装路径、解压。(在这一部分很简单,不做多余的说明) 3.修改Storm文件目录下的配置文件(conf文件里面的storm.yaml文件) Storm.yaml这个文件其实是一个空文件,我们可以直接添加如下信息(...

2018-08-29 21:09:19

阅读数 75

评论数 0

大数据------storm

1.storm简介: Storm是Twitter公司开源贡献给Apache的一款实时流式计算框架,作用是用于解决数据的实时计算,以及实时处理等问题。它与hadoop的不同就是能够做到实时处理数据的能力,这里有一个hadoop离线项目的经典架构模式:ftp(获取)----hdfs(存储)-----...

2018-08-29 16:59:27

阅读数 57

评论数 0

大数据------kafka高级

1.深入学习kafka,我们要搭建一个kafka集群,配置好,运行起来,完成消息的发布与接收其实实现起来很简单,但是在kafka的底层是如何实现的,如何在大量消息中快速找到想要的消息,消息怎样才会在传递中不丢失,运行过程中会会经常遇到哪些比较棘手的问题接下来我们进入kafka高级的探入。 2.K...

2018-08-26 20:20:28

阅读数 172

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭