大数据环境搭建
大数据笔记及大数据组件
WGS.
道阻且长,与君共勉:你若对得起时间,时间便会对得起你。
展开
-
ElasticSearch(单节点)环境配置
修改Linux配置参数修改文件数配置,在文件末尾添加如下配置vim /etc/security/limits.conf * soft nofile 65536* hard nofile 131072* soft nproc 2048* hard nproc 4096修改 * soft nproc 1024 为 * soft nproc 2048vim /etc/security/limits.d/20-nproc.conf * soft nproc 2048 #将该条目修.原创 2020-12-21 17:49:28 · 1287 阅读 · 0 评论 -
Redis(单节点)环境配置
将源代码解压到安装目录tar xvf /export/softwares/redis-4.0.2.tar.gz -C /export/servers进入Redis源代码目录,编译安装cd /export/servers/redis-4.0.2/编译源代码make MALLOC=libc编译安装make install创建配置文件copycp /export/servers/redis-4.0.2/redis.conf /etc/ 创建对应目录mkdir.原创 2020-12-21 17:48:16 · 925 阅读 · 0 评论 -
MongoDB(单节点)环境配置
将压缩包解压到指定目录tar xvf /export/softwares/mongodb-linux-x86_64-rhel62-3.4.3.tgz -C /export/servers/改名mv /export/servers/mongodb-linux-x86_64-rhel62-3.4.3 /export/servers/mongodb在安装目录下创建data文件夹用于存放数据和日志在data文件夹下创建db文件夹,用于存放数据在data文件夹下创建logs文件夹,用于存放日.原创 2020-12-21 17:47:28 · 702 阅读 · 1 评论 -
Hadoop生态圈及相关组件图解(全网最清楚)
文章目录生态圈图解生态圈先关组件生态圈图解生态圈先关组件原创 2020-12-06 14:51:39 · 2108 阅读 · 0 评论 -
Phoenix简介与安装
phoenix,中文译为“凤凰”,很美的名字。Phoenix是由saleforce.com开源的一个项目,后又捐给了Apache基金会。它相当于一个Java中间件,提供jdbc连接,操作hbase数据表。Phoenix是一个HBase的开源SQL引擎。你可以使用标准的JDBC API代替HBase客户端API来创建表,插入数据,查询你的HBase数据。Phoenix的团队用了一句话概括Phoenix:“We put the SQL back in NoSQL” 意思是:我们把SQL又放回NoSQL去了!这边原创 2020-11-11 19:48:48 · 3147 阅读 · 1 评论 -
sqoop整合HBase
文章目录需求一:将mysql表当中的数据导入到HBase当中来第一步:修改sqoop配置文件第二步:在mysql当中创建数据库以及数据库表并插入数据第三步:将mysql表当中的数据导入HBase表当中去第四步:HBase当中查看表数据需求二:将HBase当中的数据导出到mysql当中来第一步:创建hive外部表第二步:创建hive内部表并将外部表数据插入到内部表当中来第三步:外部表数据插入内部表第四步:清空mysql表数据第五步:执行sqoop导出hive内部表数据到mysqlsqoop是一个数据导入导出原创 2020-11-11 17:53:00 · 613 阅读 · 2 评论 -
hive与HBase整合
文章目录需求一:将hive分析结果的数据,保存到HBase当中去第一步:拷贝hbase的五个依赖jar包到hive的lib目录下第二步:修改hive的配置文件第三步:修改hive-env.sh配置文件添加以下配置第四步:hive当中建表并加载以下数据hive当中建表创建hive数据库与hive对应的数据库表准备数据内容如下进行加载数据第五步:创建hive管理表与HBase进行映射第六步:hbase当中查看表hbase_score需求二:创建hive外部表,映射HBase当中已有的表模型第一步:HBase当中原创 2020-11-11 17:52:02 · 352 阅读 · 1 评论 -
(十二)HBase的集群环境搭建
文章目录第一步:下载对应的HBase的安装包第二步:压缩包上传并解压第三步:修改配置文件修改第一个配置文件hbase-env.sh修改第二个配置文件hbase-site.xml修改第三个配置文件regionservers创建back-masters配置文件,实现HMaster的高可用第四步:安装包分发到其他机器第五步:三台机器创建软连接第六步:三台机器添加HBASE_HOME的环境变量第七步:HBase集群启动第八步:页面访问注意事项:HBase强依赖zookeeper和hadoop,安装HBase之前一原创 2020-11-09 10:28:13 · 151 阅读 · 2 评论 -
用户画像(一)数仓与表结构的基本构建
文章目录初识用户画像基础架构数仓分层用户画像标签用户源数据分析画像目标分析用户画像建模用户基本属性表用户消费订单表用户购买类目表用户访问信息表商品订单表埋点日志表访问日志表商品评论表搜索日志表用户收藏表、购物车信心表环境准备数仓表的基本介绍用户画像表结构开发客户消费订单表订单表(bdm_order)订单明细表(bdm_order_des)订单表(fdm_order)订单表明细表(fdm_order_desc)订单模型表(gdm_order)订单地址模型表(gdm_user_order_addr_model)原创 2020-11-07 08:19:50 · 2938 阅读 · 2 评论 -
flume对接kafka
配置文件cd /export/servers/apache-flume-1.6.0-cdh5.14.0-bin/confvim flume-kafka.conf# definea1.sources = r1 a1.sinks = k1a1.channels = c1# sourcea1.sources.r1.type = exec# a1.sources.r1.command = tail -F -c +0 /export/servers/apache-flume-1.6.0-.原创 2020-10-31 15:17:18 · 200 阅读 · 1 评论 -
(十一)Kafka集群安装
文章目录解压安装包修改配置文件配置环境变量分发安装包启动集群解压安装包第一台机器解压修改解压后的文件名称mv kafka_2.11-1.0.0/ kafka修改配置文件cd /export/servers/kafka/config/vim server.properties输入以下内容#broker的全局唯一编号,不能重复broker.id=0#删除topic功能使能delete.topic.enable=true#处理网络请求的线程数量num.network.原创 2020-10-30 11:12:35 · 194 阅读 · 0 评论 -
kafka测试demo
kafka可以做离线也可以做实施磁盘持久化的 默认保存7天,可以做离线数据源这里在第一台机器,解压即可先启动zookeeper三个机器都启动/export/servers/zookeeper-3.4.5-cdh5.14.0/bin/zkServer.sh start启动Kafka服务器/export/servers/kafka_2.11-1.0.0/bin/kafka-server-start.sh config/server.properties这里node01自原创 2020-10-30 11:11:20 · 567 阅读 · 0 评论 -
spark整合flume
文章目录Spark Streaming整合flumePoll拉取数据Push方式Spark Streaming整合flumeflume作为日志实时采集的框架,可以与SparkStreaming实时处理框架进行对接,flume实时产生数据,sparkStreaming做实时处理。Spark Streaming对接FlumeNG有两种方式,一种是FlumeNG将消息Push推给Spark Streaming,还有一种是Spark Streaming从flume 中Poll拉取数据。Poll拉取数据1原创 2020-10-30 11:06:14 · 835 阅读 · 0 评论 -
spark整合kafka
Spark Streaming整合kafka添加kafka的pom依赖<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming-kafka-0-8_2.11</artifactId> <version>2.1.3</version></dependency>启动zookeepe原创 2020-10-30 11:07:46 · 636 阅读 · 0 评论 -
(十)spark集群安装
文章目录1.下载spark安装包2.上传压缩包并解压3.修改配置文件4.拷贝配置到其他主机5.配置spark环境变量6.启动spark7.spark的web界面7.1 执行第一个spark程序8.启动Spark-Shell8.1 运行spark-shell 读取本地文件 单机版wordcount8.2 读取HDFS上数据注:scala直接解压配置环境变量即可1.下载spark安装包下载地址spark官网:http://spark.apache.org/downloads.html这里我们使用 s原创 2020-10-24 17:48:32 · 407 阅读 · 0 评论 -
sqoop面试理论和应用
文章目录理论sqoop是什么将大数据平台数据导出到mysql可以用什么工具?Sqoop底层运行的任务是什么?qoop数据导出的时候一次执行多长时间?Sqoop导入使用什么语法?Sqoop导出使用什么语法?sqoop数据导入数据库数据导入到hdfs导入到HDFS指定目录导入到hdfs指定目录并指定字段之间的分隔符导入关系表到HIVE导入表数据子集sql语句查找导入hdfs增量导入 (全量导入 增量导入)Sqoop的数据导出hdfs导出到mysql理论sqoop是什么sqoop是apache旗下一款“原创 2020-10-20 09:29:05 · 1060 阅读 · 1 评论 -
azkaban面试理论和应用
文章目录理论什么是azkaban?azkaban的作用是什么?Azkaban支持的内置的任务类型有哪些?azkaban如何创建Command类型多job工作流flow?1.Command类型单一job示例2.Command类型多job工作流flow3.HDFS操作任务4.MAPREDUCE任务5.HIVE脚本任务6.azkaban的定时任务理论什么是azkaban?一个批量工作流任务调度器。azkaban的作用是什么?一个完整的数据分析系统通常都是由大量任务单元组成:shell脚本程序,ja原创 2020-10-20 09:27:17 · 478 阅读 · 0 评论 -
flume面试理论和应用
文章目录理论flume是什么?flume分布式系统中最核心的角色是什么?flume中,每一个agent相当于一个数据传递员,内部有三个组件,是什么?source到channel到sink之间传递数据的形式是什么?flume常用的source有哪些?flume常用的channel有哪些?flume常用的sink有哪些了解flume的负载均衡和故障转移吗?1.采集目录到hdfs1.配置文件编写2.启动3.上传文件4.查看2.采集文件到hdfs1.配置文件2.启动flume3.开发shell脚本定时追加文件内容4原创 2020-10-20 09:24:16 · 276 阅读 · 0 评论 -
hive级联求和
create table t_salary_detail(username string,month string,salary int)row format delimited fields terminated by ',';load data local inpath '/export/servers/hivedatas/accumulate/t_salary_detail.dat' into table t_salary_detail;用户 时间 收到小费金额A,2015-01,5A,原创 2020-10-20 09:21:16 · 192 阅读 · 0 评论 -
数据分析---网站日志流分析
文章目录数据分析平台介绍网站流量分析项目的一些问题1.数据处理流程1.数据采集2.数据预处理3.数据入库4.数据分析(ETL)5.数据展现2.mr程序进行数据预处理理论方面3.流量分析常见分类骨灰级指标IPPVUV基础级指标复合级指标基础分析(PV,IP,UV)4.统计分析建表事实表设计维度表设计访问日志明细宽表以下ETL需求小结1.流量分析1.1多维度统计PV总量按时间维度按终端维度1.2按referer维度(按照来访维度统计pv)1.3统计pv总量最大的来源TOPN (分组TOP)1.4人均浏览页数2.原创 2020-10-20 09:20:03 · 1767 阅读 · 0 评论 -
关于hive的面试题理论
文章目录1、什么是hive?2、hive的作用是什么?3、数仓4、外部表和内部表的区别5、什么是分区表?应用场景是什么?6、什么是分桶表?分桶表和分区表7、简述UDF、UDTF、UDAF是什?8、Hive开发UDF的六个步骤:9、hive的数据存储格式?10、三种复杂的数据类型11、concat、concat_ws、collect_set12、说说你对explode和lateral view的理解13、说说你对开窗函数的理解14.开启map阶段压缩(有印象即可)15.开启reduc阶段压缩(有印象即可)16原创 2020-10-20 09:16:08 · 342 阅读 · 1 评论 -
hive常用函数
文章目录空字段赋值 NVL()CASE WHEN行转列CONCATCONCAT_WSCOLLECT_SETgroup_concat列转行窗口函数(开窗函数)RANK() 排序相同时会重复,总数不会变 1 1 3DENSE_RANK() 排序相同时会重复,总数会减少 1 1 2ROW_NUMBER() 会根据顺序计算 1 2 3空字段赋值 NVL()函数说明NVL:给值为NULL的数据赋值,它的格式是NVL( value,default_value)。它的功能是如果value为NULL,则NVL函原创 2020-10-20 09:13:15 · 245 阅读 · 0 评论 -
hive基本操作
文章目录库操作创建数据库指定库的位置修改数据库查看数据库详细信息删除数据库表操作内部表(管理表)创建表创建表并指定字段之间的分隔符 ***根据查询结果创建表(包括数据和结构)根据已经存在的表结构创建表(只包括结构不包括数据)查询表的类型、详细信息 ***外部表创建外部表 ***从本地文件系统向表中加载数据(追加) ***加载数据并覆盖已有数据 ***从hdfs文件系统向表中加载数据 ***删除外部表内部表(管理表)和外部表分区表创建分区表 ***创建一个表带多个分区加载数据到分区表中 ***加载数据到一个多原创 2020-10-20 09:08:03 · 297 阅读 · 0 评论 -
(九)sqoop安装
1.下载解压我们这里使用sqoop1的版本cd /export/servers/tar -zxvf sqoop-1.4.6-cdh5.14.0.tar.gz -C ../servers/2.修改配置文件cd /export/servers/sqoop-1.4.6-cdh5.14.0/conf/cp sqoop-env-template.sh sqoop-env.shvim sqoop-env.shexport HADOOP_COMMON_HOME=/export/servers/had原创 2020-10-19 09:41:40 · 296 阅读 · 2 评论 -
(八)Azkaban单服务安装
文章目录1.azkaban的编译1.1azkaban的编译1.2编译之后需要的安装文件列表如下2.azkaban单服务模式安装与使用2.1解压2.2修改两个配置文件2.3启动solo-server2.4浏览器页面访问2.5单服务模式使用3.azkaban两个服务模式安装1.azkaban的编译(因为这里安装包都有,所以上传解压改配置文件就行)1.1azkaban的编译我们这里选用azkaban3.51.0这个版本自己进行重新编译,编译完成之后得到我们需要的安装包进行安装注意:我们这里编译需要使用j原创 2020-10-19 09:37:45 · 1010 阅读 · 4 评论 -
(七)Flume安装
Flume的安装非常简单,只需要解压即可,当然,前提是已有hadoop环境上传安装包到数据源所在节点上这里我们采用在第三台机器来进行安装1.下载解压修改配置文件进入目录解压flumetar -zxvf flume-ng-1.6.0-cdh5.14.0.tar.gzcd /export/servers/apache-flume-1.6.0-cdh5.14.0-bin/confcp flume-env.sh.template flume-env.shvim flume-env.shex原创 2020-10-19 09:33:35 · 249 阅读 · 1 评论 -
(六)hive的安装
文章目录1.解压hive2.修改hive-env.sh3.修改hive-site.xml4.上传mysql的lib驱动包5.交互测试第一种交互方式:Hive交互shell第二种方式:Hive JDBC服务杀进程查看库链接成功linux yum源安装mysql https://blog.csdn.net/qq_42363032/article/details/1088741691.解压hivecd /export/serverstar -zxvf hive-1.1.0-cdh5.14.0.tar.g原创 2020-09-29 19:35:14 · 236 阅读 · 0 评论 -
(五)linux yum源安装mysql
文章目录拖到目录下添加到MySQL Yum Repository默认是新的8.0的,如果要装5.7的需要修改配置文件安装MySQL启动MySQL利用临时密码登录并修改密码开启远程连接客户端或者cmd链接测试拖到目录下添加到MySQL Yum Repositoryrpm -Uvh mysql80-community-release-el7-3.noarch.rpm默认是新的8.0的,如果要装5.7的需要修改配置文件vi /etc/yum.repos.d/mysql-community.rep原创 2020-09-29 19:19:40 · 327 阅读 · 0 评论 -
关于大数据技术的一点自我思考
文章目录1.什么是大数据?2.大数据技术是什么?3.为什么会有大数据技术?4.大数据技术的原理是什么?5.大数据系统构建的几个核心问题?6.大数据技术的几个大变迁感受大数据技术在当下时代,已经不算是什么新鲜东西了。但绝大部分同学往往又是没机会接触大数据相关底层技术的,包括我自己。不过,俗话说没吃过猪肉还没见过猪跑吗?今天就来说说我对大数据技术的思考吧,希望会给部分同学解开一些迷惑1.什么是大数据?我们不搞虚的:大数据就是数据量比较大的场景,比如上TB或者PB级别以上的,基本就要归属于大数据的范畴了。原创 2020-09-28 10:57:52 · 1130 阅读 · 0 评论 -
(四) HADOOP环境搭建(CDH 伪分布式)
上一篇:zookeeper环境搭建(CDH版本) https://blog.csdn.net/qq_42363032/article/details/108771873文章目录安装环境服务部署规划1.上传压缩包并解压第一步:上传压缩包并解压第二步:查看hadoop支持的压缩方式以及本地库第三步:修改配置文件1.修改core-site.xml2.修改hdfs-site.xml3.修改hadoop-env.sh4.修改mapred-site.xml5.修改yarn-site.xml6.修改slaves文件第原创 2020-09-24 16:38:11 · 386 阅读 · 0 评论 -
(三) zookeeper环境搭建(CDH版本)
上一篇:大数据集群准备工作环境搭建 (centos7) https://blog.csdn.net/qq_42363032/article/details/108760033文章目录下载,解压修改配置文件启动zk服务下载,解压下载地址为:http://archive.cloudera.com/cdh5/cdh/5/我们这里下载CDH5.14.0这个版本的zookeeper的压缩包在3台虚拟机上分别拖进去,然后分别解压,配置环境变量这里使用这一种:先在一台解压、配置,然后在远程拷贝到其他原创 2020-09-24 12:48:18 · 628 阅读 · 0 评论 -
(二)大数据集群准备工作环境搭建 (centos7)
centos7安装图片教程 https://blog.csdn.net/qq_42363032/article/details/108690773大数据集群环境准备(centos7)文章目录大数据集群环境准备(centos7)准备3台虚拟机三台虚拟机关闭防火墙三台机器更改主机名三台机器做主机名与IP地址的映射三台机器机器免密码登录三台机器时钟同步三台机器安装jdk准备3台虚拟机准备三台虚拟机的步骤总结1.右键打开虚拟目录,直接复制三个虚拟机2.打开虚拟机3.我已复制该虚拟机4.改其余几个原创 2020-09-23 20:04:19 · 363 阅读 · 0 评论 -
(一)centos7安装(图片教程)
开启登录虚拟机,修改网卡配置vi /etc/sysconfig/network-scripts/ifcfg-ens33然后进入以下界面点 i 进行修改esc :wq保存并退出重启网络服务生效service network restart原创 2020-09-20 11:37:54 · 611 阅读 · 1 评论