大数据基础软件安装及简单使用
大数据基础软件安装及简单使用
SmallScorpion
Look at the world with reptiles and write code for the rest of your life;
Illuminate the stars with data and conquer the sea with technology
展开
-
【零】简单数仓框架优化、配置及基准测试
一、Hadoop1.1 HDFS存储多目录在DataNode节点增加磁盘并进行挂载。在hdfs-site.xml文件中配置多目录,注意新挂载磁盘的访问权限问题。<property> <name>dfs.datanode.data.dir</name><value>file:///${hadoop.tmp.dir}/...原创 2020-03-11 20:41:11 · 279 阅读 · 0 评论 -
【机器学习】KNN算法
概述KNN(K-Nearest Neighbors),又称K-近邻算法。简单来讲,K-近邻算法采用不同特征值之间的距离方法进行分类。2. 前提准备https://www.runoob.com/numpy/numpy-matplotlib.html手动算法实践导包:import numpy as npimport matplotlib.pyplot as plt...原创 2019-08-23 17:12:30 · 173 阅读 · 0 评论 -
QLExpress 在Spark数仓中用scala做结果数据校检
链接https://gitee.com/cuibo119/QLExpress重点步骤从参数中获取要校检的库名和表名读取校检数据清单表,匹配目标(库名,表名)获取所有需要校检数据的表达式存放进一个list进行广播清单表字段:库名,表名,序号,表达式,描述// 定位校检数据表val dbName = args("dbName")val tableName = args("tableName")val expressList = proofreadingUtilTable.map(原创 2020-09-02 16:05:06 · 450 阅读 · 0 评论 -
ClickHouse得安装及集群模式得搭建
安装前提1. CentOS取消打开文件数限制在/etc/security/limits.conf、/etc/security/limits.d/90-nproc.conf这2个文件的末尾加入一下内容(没有权限可使用sudo chmod 777 文件名字)/etc/security/limits.conf :* soft nofile 65536* hard nofile 65536* soft nproc 131072* hard nproc 131072/etc/security/l原创 2020-08-14 15:09:00 · 301 阅读 · 0 评论 -
ElasticSearch在Java程序中的应用
关于es 的java 客户端的选择目前市面上有两类客户端一类是TransportClient 为代表的ES原生客户端,不能执行原生dsl语句必须使用它的Java api方法。另外一种是以Rest Api为主的missing client,最典型的就是jest。 这种客户端可以直接使用dsl语句拼成的字符串,直接传给服务端,然后返回json字符串再解析。两种方式各有优劣,但是最近elasticsearch官网,宣布计划在7.0以后的版本中废除TransportClient。以RestClient为主。原创 2020-05-10 19:43:52 · 411 阅读 · 0 评论 -
ElasticSearch中的aliases的增删查改|索引模板|创建模板|查看模板清单|查看模板详情
索引别名 _aliases索引别名就像一个快捷方式或软连接,可以指向一个或多个索引,也可以给任何一个需要索引名的API来使用。别名 带给我们极大的灵活性,允许我们做下面这些:给多个索引分组 (例如, last_three_months)给索引的一个子集创建视图在运行的集群中可以无缝的从一个索引切换到另一个索引创建索引别名PUT movie_chn_2020{ "aliases": { "movie_chn_2020-query": {} }, "mappings":原创 2020-05-10 11:54:14 · 1848 阅读 · 0 评论 -
ElasticSearch默认中文分词|安装外部中文分词器IK|Mapping的简单测试|基于中文分词搭建索引
中文分词elasticsearch本身自带的中文分词,就是单纯把中文一个字一个字的分开,根本没有词汇的概念。但是实际应用中,用户都是以词汇为条件,进行查询匹配的,如果能够把文章以词汇为单位切分开,那么与用户的查询条件能够更贴切的匹配上,查询速度也更加快速。使用默认GET movie_index/_analyze{ "text": "我是中国人"}安装IK与es版本一致分词器下载网址:https://github.com/medcl/elasticsearch-analysis-原创 2020-05-10 11:09:39 · 791 阅读 · 0 评论 -
ElasticSearch对数据得操作-增删查改|过滤|排序|分页查询|指定查询|高亮|聚合
ElasticSearch restful api (DSL)DSL全称 Domain Specific language,即特定领域专用语言。es中保存的数据结构以文档方式存储,查看es中有哪些索引增加一个索引PUT /movie_index删除一个索引ES 是不删除也不修改任何数据的,而是增加版本号// 将整个表(idnex)删除DELETE /movie_index// 删除某一条数据DELETE /movie_index/move/3新增文档// PUT: 幂等原创 2020-05-09 16:18:53 · 580 阅读 · 0 评论 -
ElasticSearch简介|与其他数据库对比|ElasticSearch得安装|ElasticSearch的配置|Kibana的安装及启动
ESElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java开发的,并作为Apache许可条款下的开放源码发布,是当前流行的企业级搜索引擎。使用场景1、 为用户提供按关键字查询的全文搜索功能。2、 实现企业海量数据的处理分析的解决方案。大数据领域的重要一份子,如著名的ELK框架(ElasticSearch,Logstash,Kibana)。对比安装Elasticsearch原创 2020-05-09 12:05:40 · 246 阅读 · 0 评论 -
ElasticSearch特点|B+Tree|lucene倒排索引结构|lucene与elasticsearch的关系|基本概念
ElasticSearch特点1. 天然分片,天然集群: es 把数据分成多个shard,下图中的P0-P2,多个shard可以组成一份完整的数据,这些shard可以分布在集群中的各个机器节点中。随着数据的不断增加,集群可以增加多个分片,把多个分片放到多个机子上,已达到负载均衡,横向扩展。 这种集群分片的机制造就了elasticsearch强大的数据容量及运算扩展性。在实际运算过程中,每个查询任务提交到某一个节点,该节点必须负责将数据进行整理汇聚,再返回给客户端,也就是一个简单的节点上进行Map计算,原创 2020-05-09 14:43:20 · 1607 阅读 · 0 评论 -
Xshell连接虚拟机速度优化
1. 更改配置文件sudo vim /etc/ssh/sshd_config -> GSSAPIAuthentication no-> UseDNS no 2. 配置hosts文件主机IP 主机名3. 重启服务centos6 -> sudo service sshd restartcentos7 -> systemctl restart sshd...原创 2020-03-19 13:38:44 · 211 阅读 · 0 评论 -
基于CentOS 7.2的CDH 6.3.2 Ooize完整安装
基于CentOS 7.2的CDH6.3.2离线安装https://blog.csdn.net/qq_40180229/article/details/108755530基于CentOS 7.2的CDH 6.3.2完整集群添加https://blog.csdn.net/qq_40180229/article/details/108756561基于CentOS 7.2的CDH 6.3.2 Hadoop配置https://blog.csdn.net/qq_40180229/article/details原创 2020-09-24 17:02:32 · 179 阅读 · 0 评论 -
基于CentOS 7.2的CDH 6.3.2 Hue完整安装
基于CentOS 7.2的CDH6.3.2离线安装https://blog.csdn.net/qq_40180229/article/details/108755530基于CentOS 7.2的CDH 6.3.2完整集群添加https://blog.csdn.net/qq_40180229/article/details/108756561基于CentOS 7.2的CDH 6.3.2 Hadoop配置https://blog.csdn.net/qq_40180229/article/details原创 2020-09-24 17:11:43 · 415 阅读 · 0 评论 -
基于CentOS 7.2的CDH 6.3.2 Impala完整安装
基于CentOS 7.2的CDH6.3.2离线安装https://blog.csdn.net/qq_40180229/article/details/108755530基于CentOS 7.2的CDH 6.3.2完整集群添加https://blog.csdn.net/qq_40180229/article/details/108756561基于CentOS 7.2的CDH 6.3.2 Hadoop配置https://blog.csdn.net/qq_40180229/article/details原创 2020-09-24 17:23:05 · 712 阅读 · 0 评论 -
Flume进阶之企业开发案例或自定义组件案例
一、内部原理ChannelSelectorChannelSelector的作用就是选出Event将要被发往哪个Channel。其共有两种类型,分别是Replicating(复制)和Multiplexing(多路复用)。ReplicatingSelector会将同一个Event发往所有的Channel,Multiplexing会根据相应的原则,将不同的Event发往不同的Channel。...原创 2020-02-28 18:30:57 · 352 阅读 · 0 评论 -
Flume的“实时监控目录下的多个追加文件“案例实操
一、需求使用Flume监听整个目录的实时追加文件,并上传至HDFS二、步骤2.1 创建配置文件在flume下创建的job目录下创建配置文件flume-taildir-hdfs.conf,添加内容如下:a3.sources = r3a3.sinks = k3a3.channels = c3# Describe/configure the sourcea3.sources...原创 2020-02-26 21:30:20 · 773 阅读 · 3 评论 -
Flume的安装及“HelloWord“案例实操
一、Flume定义Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单,Flume有两个版本Flume 0.9X版本的统称Flume-og,Flume1.X版本的统称Flume-ng。二、Flume基础架构三、安装Flume官网地址http://flume.apache.org/文档查看地址ht...原创 2020-02-26 20:19:58 · 296 阅读 · 0 评论 -
电商数仓3.0 EZDML业务数据建模
下载地址采用EZDML这款数据库设计工具进行数据建模:http://www.ezdml.com/download_cn.html新建模型导入数据库配置连接导入数据库表建立表关系选中主表(主键所在表)点 “连接” 按钮点击从表,配置连接条件效果展示缩略图...原创 2020-10-21 16:55:38 · 406 阅读 · 0 评论 -
Sqoop的安装及测试
一、安装1. 解压tar -zxvf sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz -C /opt/module/2. 改名mv sqoop-1.4.6.bin__hadoop-2.0.4-alpha/ sqoop3. 修改配置文件export HADOOP_COMMON_HOME=/opt/module/hadoop-2.7.2exp...原创 2020-03-13 20:38:28 · 338 阅读 · 0 评论 -
Azkaban的安装及应用实战
一、准备Azkaban只支持mysql,需安装mysql服务器azkaban-web-server-2.5.0.tar.gzazkaban-executor-server-2.5.0.tar.gzazkaban-sql-script-2.5.0.tar.gz二、安装2.1 上传将三个依赖上传到Linux中/opt2.2 解压解压azkaban-web-server...原创 2020-03-03 21:16:48 · 260 阅读 · 0 评论 -
Zookeeper的分布式安装和简单的API应用
一、定义Zookeeper是一个开源的分布式的,为分布式应用提供协调服务的Apache项目。二、特点三、应用场景提供的服务包括:统一命名服务、统一配置管理、统一集群管理、服务器节点动态上下线、软负载均衡等。四、分布式安装部署4.1 上传解压tar -zxvf zookeeper-3.4.10.tar.gz -C /opt/module/4.2 配置环境变量配置到...原创 2020-02-27 12:02:15 · 146 阅读 · 0 评论 -
Druid概念及简单安装
1. 概念Druid是一个快速的列式分布式的支持实时分析的数据存储系统。它在处理PB级数据、毫秒级查询、数据实时处理方面,比传统的OLAP系统有了显著的性能改进与阿里巴巴的Druid(数据库连接池)没有关系2. 特点3. 应用场景4. 对比5. 框架原理类似HBase的LSM tree(Log Structure merge)数据从middleManagerNod...原创 2020-03-25 19:17:39 · 191 阅读 · 0 评论 -
Druid的Web页面使用
1. 启动采集通道2. 生成数据生成流式数据,3秒一条,一共10000条3. 查看数据是否生成[atguigu@hadoop102 kafka_2.11-0.11.0.2]$ bin/kafka-console-consumer.sh --bootstrap-server hadoop102:9092 --topic topic_start4. 添加数据点击Load da...原创 2020-03-25 20:00:01 · 1945 阅读 · 0 评论 -
Kylin的简单概述及搭建
一、定义开源的分布式分析引擎提供Hadoop/Spark之上的SQL查询接口多维分析(OLAP)能力及支持超大规模数据亚秒内查询巨大的Hive表二、架构REST Server:REST Server是一套面向应用程序开发的入口点,旨在实现针对Kylin平台的应用开发工作。 此类应用程序可以提供查询、获取结果、触发cube构建任务、获取元数据以及获取用户权限等等。另外可以通过...原创 2020-03-24 20:04:05 · 316 阅读 · 0 评论 -
Kylin的简单使用
1. 创建工程2. 获取数据源3. 选择数据表选择所需数据表,并点击Sync按钮4. 问题model中的维度表dwd_dim_user_info_his为拉链表、dwd_dim_sku_info为每日全量表,故使用整张表作为维度表,必然会出现订单表中同一个user_id或者sku_id对应多条数据的问题在hive中创建维度表的临时表,该临时表中只存放维度表最新的一份完...原创 2020-03-24 21:37:20 · 323 阅读 · 0 评论 -
Kylin的构建原理及简单优化
1. 维度和度量维度:即观察数据的角度。比如员工数据,可以从性别角度来分析,也可以更加细化,从入职时间或者地区的维度来观察。维度是一组离散的值,比如说性别中的男和女,或者时间维度上的每一个独立的日期。因此在统计时可以将维度值相同的记录聚合在一起,然后应用聚合函数做累加、平均、最大和最小值等聚合计算。度量:即被聚合(观察)的统计值,也就是聚合运算的结果。比如说员工数据中不同性别员工的人数,又...原创 2020-03-25 15:06:44 · 1046 阅读 · 1 评论 -
Miniconda的安装及Pytheon3.6环境的搭建及使用
1. 简介conda是一个开源的包、环境管理器,可以用于在同一个机器上安装不同Python版本的软件包及其依赖,并能够在不同的Python环境之间切换,Anaconda包括Conda、Python以及一大堆安装好的工具包,比如:numpy、pandas等,Miniconda包括Conda、Python。2. 下载Miniconda(Python3版本)下载地址:https://repo...原创 2020-03-23 20:03:24 · 6071 阅读 · 0 评论 -
Hive配置Tez引擎
1. 解压hive2. 导入mysql驱动包前提是mysql已经安装完成了3. 编写配置文件<?xml version="1.0"?><?xml-stylesheet type="text/xsl" href="configuration.xsl"?><configuration> <property> <nam...原创 2020-03-14 14:57:41 · 1047 阅读 · 1 评论 -
Hive中自定义UDF函数
一、创建Maven二、创建类import org.apache.hadoop.hive.ql.exec.UDF;/** * 将输入的字符串反转 */public class MyUDF extends UDF { /* evaluate方法名不能更改 */ /** * 含数具体方法,反转 * @param input ...原创 2020-02-25 20:22:03 · 308 阅读 · 0 评论 -
Hive中窗口函数(over())的实例解析
一、函数说明OVER():指定分析函数工作的数据窗口大小,这个数据窗口大小可能会随着行的变而变化。CURRENT ROW:当前行n PRECEDING:往前n行数据n FOLLOWING:往后n行数据UNBOUNDED:起点,UNBOUNDED PRECEDING 表示从前面的起点 UNBOUNDED FOLLOWING表示到后面的终点LAG(col,n,default_val)...原创 2020-02-24 19:41:12 · 830 阅读 · 0 评论 -
电商数仓3.0 Kafka压力测试
Kafka Producer压力测试// record-size是一条信息有多大,单位是字节。// num-records是总共发送多少条信息。// throughput 是每秒多少条信息,设成-1,表示不限流,可测出生产者最大吞吐量。[scorpion@warehouse102 kafka_2.11-2.4.1]$ bin/kafka-producer-perf-test.sh --topic test --record-size 100 --num-records 100000 --throu原创 2020-10-20 10:41:04 · 225 阅读 · 0 评论 -
Kafka架构深入详解
一、定义Kafka是一个分布式的基于发布/订阅模式的消息队列(Message Queue),主要应用于大数据实时处理领域。1.1 点对点模式消息队列的第一种模式一对一,消费者(Consumer)主动拉取数据,消息收到后消息清除1.2 发布/订阅模式消息队列的第二种模式一对多,消费者消费数据之后不会清除消息二、基础架构Producer :消息生产者,就是...原创 2020-03-03 16:33:39 · 476 阅读 · 2 评论 -
电商数仓3.0 数仓搭建之DataGrip连接Hive客户端
启动界面连接Hive客户端这边要进行一个配置(先不慌,我们要先启动hiveserver2)启动hiveserver2// 启动hiverserver2[scorpion@warehouse102 ~]$ hiveserver2配置连接hive客户端参数这边在进行测试连接时,可能会下载一个驱动,点击下载即可测试连接出现如图所示即可显示数据库显示控制台控制台选择数据库...原创 2020-10-27 16:44:35 · 330 阅读 · 1 评论 -
电商数仓3.0 数仓搭建之DataGrip安装
资料官网地址:https://www.jetbrains.com/datagrip/链接:https://pan.baidu.com/s/1-SguDZQM8miv-RXNWXpG7A提取码:axgeWelcome to DataGrip SetupChoose Install Location修改安装路径(next)Installation Options安装选项(next)Choose Start Menu Folder选择开始菜单的一个文件夹(next)Completin原创 2020-10-27 16:27:56 · 331 阅读 · 0 评论 -
Kafka的基础架构和集群部署及简单的命令行操作
一、Kafka架构Kafka是一个消息队列(Message Queue)Producer :消息生产者,就是向kafka broker发消息的客户端;Consumer :消息消费者,向kafka broker取消息的客户端;Consumer Group (CG):消费者组,由多个consumer组成。消费者组内每个消费者负责消费不同分区的数据,一个分区只能由一个消费者消费;消费者...原创 2020-02-29 16:53:20 · 181 阅读 · 0 评论 -
基于CentOS 7.2的CDH 6.3.2 Kafka离线安装
基于CentOS 7.2的CDH6.3.2离线安装https://blog.csdn.net/qq_40180229/article/details/108755530基于CentOS 7.2的CDH 6.3.2完整集群添加https://blog.csdn.net/qq_40180229/article/details/108756561基于CentOS 7.2的CDH 6.3.2 Hadoop配置https://blog.csdn.net/qq_40180229/article/details原创 2020-09-24 15:30:34 · 455 阅读 · 0 评论 -
基于CentOS 7.2的CDH 6.3.2 Hive完整安装
基于CentOS 7.2的CDH6.3.2离线安装https://blog.csdn.net/qq_40180229/article/details/108755530基于CentOS 7.2的CDH 6.3.2完整集群添加https://blog.csdn.net/qq_40180229/article/details/108756561基于CentOS 7.2的CDH 6.3.2 Hadoop配置https://blog.csdn.net/qq_40180229/article/details原创 2020-09-24 15:42:02 · 568 阅读 · 0 评论 -
基于CentOS 7.2的CDH 6.3.2 Kudu完整安装
基于CentOS 7.2的CDH6.3.2离线安装https://blog.csdn.net/qq_40180229/article/details/108755530基于CentOS 7.2的CDH 6.3.2完整集群添加https://blog.csdn.net/qq_40180229/article/details/108756561基于CentOS 7.2的CDH 6.3.2 Hadoop配置https://blog.csdn.net/qq_40180229/article/details原创 2020-09-24 17:17:01 · 727 阅读 · 3 评论 -
HBase简单的API操作和自定义Hbase-MapReduce
一、环境准备1.1 创建Maven<dependency> <groupId>org.apache.hbase</groupId> <artifactId>hbase-server</artifactId> <version>1.3.1</version></dependency...原创 2020-03-06 19:37:51 · 420 阅读 · 1 评论 -
Presto的概念和安装使用
一、概念Pressto时一个开源的分布式SQL查询引擎,数据量支持GB到PB字节,主要用来处理秒级查询的场景虽然Pressto可以解析SSQL,但它不是一个标准的数据库,不是MySQL、Oracle的代替品,也不能用来出来在线事务(OLTP)1.1 Presto架构Coordinator:决策者 -> 解析成MRWorker:工作者 -> 跑任务Connecto...原创 2020-03-25 16:19:52 · 985 阅读 · 0 评论