笔记
文章平均质量分 91
喵喵秀拌酱
这个作者很懒,什么都没留下…
展开
-
impala的使用以及安装
之前上课内容的回顾:zookeeperhadoop (hdfs+mapreduce)hive:数据仓库的工具 主要用来做数据分析的数据仓库主要是面向数据分析的 OLAP数据库主要是面向事务处理的 OLTPflume:日志数据采集的一个工具exec Source tail -FspoolingDir source 监控某个文件架下面的文件avro Source 网络传输,从上级avro sink里面接受数据TailDir Source 可以按照正则匹配,收集某一类的文件chan原创 2021-01-19 23:41:33 · 1079 阅读 · 0 评论 -
hive级联求和、三大框架的搭建以及echarts的基本使用
hive级联求和create table t_salary_detail(username string,month string,salary int)row format delimited fields terminated by ‘,’;load data local inpath ‘/export/servers/weblog/accumulate.txt’ into table t_salary_detail;用户 时间 收到小费金额A,2015-01,5A,2015-01,15B原创 2020-12-30 18:28:34 · 644 阅读 · 0 评论 -
数仓基础和网站流量分析
数仓的设计:(写sql)维度建模的基本概念:**维度表:**时间的维度:昨天 地点:星巴克 金钱的维度:两百块 维度表看到的事情比较狭窄,仅仅从某一个方面来看,只能看得到某一块的东西事实表:没发生的东西,一定不是事实,事实一定是建立在已经发生过的事情上面例子:昨天我去星巴克喝了一杯咖啡,花了两百块维度建模(dimensional modeling)是专门用于分析型数据库、数据仓库、数据集市建模的方法。数据集市可以理解为是一种"小型数据仓库"。维度表(dimension)**维度表示你要原创 2020-12-25 17:19:31 · 536 阅读 · 0 评论 -
网站点击流日志数据分析
网站点击流日志数据分析点击流数据:关注的是用户访问网站的轨迹,按照时间来进行先后区分基本上所有的大型网站都有日志埋点通过js的方式,可以获取到你再网站上面点击的所有的链接,按钮,商品,等等,包括你访问的url的链接等等js埋点,谁来做???专业的前端来做的埋点收集的数据,都发送到日志服务器 一条日志大概1Kb来算数据全部在日志服务器分析用户的点击数据,得到我们的点击流模型pageView模型:重视的是每一个页面受到的访问情况,每访问一个页面,就算一条记录visit模型:重视的是每一个s原创 2020-12-23 17:35:38 · 1360 阅读 · 0 评论 -
sqoop导入导出工具的使用以及通过java代码连接linux,远程执行shell命令
1、sqoop是apache开源提供的一个数据导入导出的工具,从关系型数据库导入到hdfs,或者从hdfs导出到关系型数据库等等导入数据:MySQL,Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统;导出数据:从Hadoop的文件系统中导出数据到关系数据库mysql等**原理:**通过MR的inputformat和outputformat来实现数据的输入与输出,底层执行的全部都是MR的任务,只不过这个mr只有map阶段,没有reduce阶段说白了只是对数据进行抽取,从原创 2020-12-06 22:02:01 · 460 阅读 · 0 评论 -
Azkaban实战
Azkaban实战Azkaba内置的任务类型支持command、javaCommand类型单一job示例1.创建job描述文件2.创建文本文件,更改名称为mycommand.job注意后缀.txt一定不要带上,保存为格式为UFT-8 without bom内容如下type=commandcommand=echo ‘hello world’3.将job资源文件打包成zip文件4.创建project并上传压缩包通过azkaban的web管理平台创建project并上传job压缩包首先创建原创 2020-12-06 21:13:42 · 156 阅读 · 0 评论 -
flume案例
第一个案例:flume采集网络端口的数据第二个案例:监控某一个目录下面的所有的文件,只要目录下面有文件,收集文件内容,上传到hdfs上面去14sink:hdfsSinksource: spooldirspooldir特性:1、监视一个目录,只要目录中出现新文件,就会采集文件中的内容2、采集完成的文件,会被agent自动添加一个后缀:COMPLETED3、所监视的目录中不允许重复出现相同文件名的文件(flume比较脆弱,一旦抛异常,就会停止工作,只能手动重启)channel:memory原创 2020-11-12 17:48:13 · 335 阅读 · 1 评论 -
hive的存储格式、hive的调优、flame的基础知识part1
1.数据存储的格式:两大类:列式存储、行式存储四小种:行式存储:TEXTFILE、SEQUENCEFILE列式存储:ORC、PARQUENT注意:一般原始数据都是以textfile这种形式存储的经过分析之后通过insert overwrite select 将我们分析出来的结果插入到另一张临时表里面就可以使用parquet或者orc这些列式存储格式存储与压缩相结合:存储格式和压缩方式没有关系实际工作当中,一般存储格式与压缩方式都会一起使用log_orc 2.8M 因为orc格式的数据默认带来原创 2020-11-06 00:18:38 · 343 阅读 · 0 评论 -
数据仓库相关知识以及hive相关知识
1.hive的基本操作1.1建库语法create database if not exists myhive;use myhive;创建的数据库默认路径是在:11创建数据库并制定hdfs存储位置create database myhive2 location ‘/myhive2’;修改数据库信息可以使用alter database 命令来修改数据库的一些属性。但是数据库的元数据信息是不可更改的,包括数据库的名称以及数据库所在的位置alter database myhive2 se原创 2020-10-23 21:50:26 · 750 阅读 · 0 评论 -
数据仓库的基本概念、hive的安装部署、hive使用mysql作为元数据库存储的安装配置、hive的使用方式
大纲:数仓的工具hive1.数据仓库的概念 了解2.hive的基本概念以及hive的安装 搞定3.hive的基本操作 掌握4.hive的shell参数 了解5.hive当中的函数 了解6.hive当中的数据压缩 snappy 知道7.hive当中的数据存储格式 掌握8.存储格式与压缩方式的相结合 知道9.hive的调优 尽量多背几个10.hive的语句练习 作业1.数据仓库的基本概念1.1什么是数据仓库仓库就是用来存储东西的,不生产不消耗,是外界原创 2020-09-26 21:43:32 · 395 阅读 · 0 评论 -
自定义groupingCompatator实现分组求top1和topN
1.自定义groupingCompatator实现分组求top1 topNOrder_0000001 Pdt_01 222.8Order_0000001 Pdt_05 25.8Order_0000002 Pdt_03 522.8Order_0000002 Pdt_04 122.4Order_0000002 Pdt_05 722.4Order_0000003 Pdt_01 222.8求取每给订单当中,金额最大的那个商品的价格是多少求前原创 2020-09-25 21:19:13 · 281 阅读 · 0 评论 -
求共同好友、自定义inputformat实现小文件的合并以及自定义outputFormat实现我们的数据输出到不同的路径下面去
1.社交粉丝数据分析:求共同好友public class Step1Reducer extends Reducer<Text,Text,Text,Text> {//reduce接收到的数据 B 【A,E】// B 是我们的好友 集合里面装的是多个用户//将数据最终转换成这样的形式进行输出 A-B-E-F-G-H-K- Cpublic class Step1Mapper extends Mapper<LongWritable, Text,Text,Text> {原创 2020-09-25 00:12:55 · 110 阅读 · 0 评论 -
mapreduce(手机号的分区)、mapTask的运行机制和并行度
排序、合并都是作用在K2上手机号的分区在统计求和的基础上,继续完善,将不同的手机号分到不同的数据文件的当中去,需要自定义分区来实现,这里我们自定义来模拟分区,将不同数字开头的手机号进行分开public class PhonePartition extends Partitioner<Text,FlowNum> { /** * 接收我们K2 V2 以及reduce的个数 * @param text * @param flowNum * @par原创 2020-09-15 16:29:24 · 317 阅读 · 0 评论 -
MapReduce的分区、排列、规约以及流量统计求和
1.MapReduce当中的分区mapreduce当中的分区:物以类聚,人以群分,相同key的数据,去往同一个reducereducetask的数量通过我们自己手动指定 job.setNumReduceTasks(3);1分区代码逻辑2原创 2020-09-09 23:19:31 · 642 阅读 · 0 评论 -
hdfs的javaAPI操作
hdfs的javaAPI操作*递归遍历hdfs上面所有的文件出来 */ @Test public void getAllFile() throws IOException { //获取文件系统 FileSystem fileSystem = FileSystem.get(new URI("hdfs://node01:8020"),new Configuration()); fileSystem.listStatus(new Path("hdfs:原创 2020-09-06 23:22:02 · 575 阅读 · 0 评论 -
分布式文件系统hdfs详细介绍
课程回顾:1、hadoop的发展历史简介2、hadoop的历史版本3、hadoop的三大发行公司 apache 开源版本 CDH版本 所有软件的兼容性,软件的升级都做好了元数据:描述数据的数据4、hadoop1.x与2.x的架构模型区别1.x架构:HDFS:namenode:主节点,管理元数据信息,处理用户的请求secondarynamenode:辅助namenode管理元数据datanode:从节点,主要用于存储数据MapReduce:JobTracker:主节点,接收用户请求原创 2020-08-26 00:32:24 · 1299 阅读 · 0 评论 -
HDFS的特性、分布式文件系统的基本命令使用、高级使用命令、基准测试
hdfs:hadoop distributed file system 作为最底层的分布式文件存储系统而存在,可以存储海量的数据分布式文件系统解决的问题就是大数据存储。它们是横跨在多台计算机上的存储系统。分布式文件系统为存储和处理超大规模数据提供所需的扩展能力。11.HDFS的特性首先,它是一个文件系统,用于存储文件,通过统一的命名空间目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。**1.1master/slave架构:**主从架构n原创 2020-08-22 22:02:34 · 457 阅读 · 0 评论 -
hadoop伪分布式和完全式环境搭建以及CDH 伪分布式环境搭建
1.伪分布式环境搭建(适用于学习测试开发集群模式)1停止单节点集群,删除/export/servers/hadoop-2.7.5/hadoopDatas文件夹,然后重新创建文件夹1.1第一台机器执行以下命令cd /export/servers/hadoop-2.7.5sbin/stop-dfs.shsbin/stop-yarn.shsbin/mr-jobhistory-daemon.shstop historyserver1.2删除hadoopDatas然后重新创建文件夹rm -rf原创 2020-08-21 16:44:57 · 226 阅读 · 0 评论 -
hadoop基础知识
你好原创 2020-08-18 01:33:11 · 281 阅读 · 0 评论 -
zookeeper相关知识
1.zk集群环境的安装对于安装leader+follower 模式的集群, 大致过程如下:1.配置主机名称到 IP 地址映射配置2.修改ZooKeeper 配置文件3.远程复制分发安装文件4.设置myid5.启动ZooKeeper 集群第一步:下载zookeeper的压缩包,下载网址:http://archive.apache.org/dist/zookeeper/第二步:解压zookeeper的压缩包到/export/servers路径下去,然后准备进行安装cd /export/soft原创 2020-08-16 22:23:17 · 191 阅读 · 0 评论 -
Linux当中的shell编程
1.linux的shell编程linux当中的shell是一门脚本语言,所见即所得shell变成一般指代shell脚本的开发,不是指代shell内核的开发Linux 的 Shell 种类众多, 一个系统可以存在多个 shell,可以通过 cat /etc/shells 命令查看系统中安装的 shell。统一两个路径mkdir -p /export/softwares 存放我们的软件的压缩包mkdir -p /export/servers 存放我们软件解压之后的路径shell脚本第一行约原创 2020-08-13 21:56:22 · 268 阅读 · 0 评论 -
zk的基本概述以及架构模型
zookkeeper学习1.zk介绍:一个分布式的服务协调框架,主要用于协调辅助其他的框架正常运作主要是为了解决应用系统当中的一致性问题zk本质上是一个分布式的小文件存储系统:zk上面的每个文件最好不要超过1M分布式:每台机器看到的数据都是一样的提供基于类似于文件系统的目录树方式的数据存储,并且可以对树中的节点进行有效管理。从而用来维护和监控你存储的数据的状态变化。通过监控这些数据状态的变化,从而可以达到基于数据的集群管理。 诸如: 统一命名服务(dubbo)、分布式配置管理(solr的配置集中管原创 2020-08-13 21:51:00 · 1082 阅读 · 0 评论 -
linux基础增强以及用户与用户组
Linux命令加强1、查找命令:1.1grep 命令:查看某个系统进程 ps -ef | grep xxxps -ef | grep nginxps -ef | grep mysqlps -ef 是查看全部系统命令进程实例:ps -ef | grep sshd 查找指定 ssh 服务进程ps -ef | grep sshd | grep -v grep 查找指定服务进程,排除 gerp 本身cat test.txt |grep ^u 找出以 u 开头的行内容1.2find命令:原创 2020-08-12 00:06:10 · 152 阅读 · 0 评论 -
大数据_Hadoop离线学习之三台机器的联网
1.三台虚拟机网络的连接 (重点)2.linux的增强 (部分重点)3.linux的shell编程(重点)4.大数据集群环境的准备(重点)5.zookeeper ( zk的安装(重点)、zk的特性、api的操作、节点的知识(尽量搞定) )6.网络编程 (了解)windows 系统查看所有的服务命令 services.msc...原创 2020-08-11 18:23:39 · 486 阅读 · 0 评论 -
MySQL基础知识学习part4
1.mysql中运算符的使用1.1算术运算符对NULL进行运算后结果都是NULL1.2比较运算符1为真,0为假1.3逻辑运算符1.4运算符的优先级2.数学函数库**3.字符串函数库注意:字符串连接中有NULL的话,连接结果为NULL注意:以指定分隔符连接字符串中,若分隔符为NULL,则连接结果为null;若连接的字符串中有NULL,连接结果不包含NULL,NULL相当于一个空字符串。注意:将字符串s中搜索S1,替换成S2中,原创 2020-07-31 21:36:13 · 159 阅读 · 0 评论 -
MySQL基础知识学习part3
1.通过ORDER BY对查询结果排序1.1升序:ASC ,NULL值是最小降序:DESC还可以通过字段的位置来排序1.21.41.3随机文章或者随机记录的提取1.61.52.通过limit限制显示条数1.71.81.92.02.12.23.更新删除应用order by和limit2.32.4注意:在更新数据的时候,使用限制修改条数只能用LIMIT的一个参数的形式。2.54.内连接查询连接查询:是将两个或两个以上的表按某个条件连接起来,从中选取需要的数据。连接原创 2020-07-29 22:14:32 · 200 阅读 · 0 评论 -
MySQL基础知识笔记part2
121.测试自增长(AUTO_INCREMENT)注意:一个表中只能有一个自增长字段,被标志成自增长的字段一定是主键,但是主键不一定是自增长的。而且,自增长只对整数列,整数对有效。对于字符串无意义。1.11.21.31.41.51.6修改自增长的值1.72.非空约束(NOT NULL)1.81.93.测试默认值(DEFAULT)NOT NULL会配合DEFAULT一起来使用2.02.12.22.34.测试唯一性约束(UNIQUE KEY)(一个表中只能有一个主键,但原创 2020-07-28 23:18:51 · 149 阅读 · 0 评论 -
MySQL基础学习笔记part1
数据库简介数据库就是存储数据的仓库。为了方便数据的存储和管理,将数据按照特定的规律存储在磁盘上,通过数据管理系统,有效地组织和管理存储在数据库中的数据。数据库系统:数据库系统和数据库不是一个概念,数据库系统(DBS),比数据库大很多,由数据库、数据库管理系统,应用开发工具构成。数据库管理系统:用来定义数据、管理和维护数据的软件。它是数据库系统的一种重要的组成部分。常见的数据库系统:甲骨文Oracle数据库、MySQL等MySQL数据库:开放源代码的数据库、具有跨平台性、开源免费、功能强大使用免费原创 2020-07-25 23:02:35 · 218 阅读 · 0 评论 -
Shall基础编程
虚拟机重启出现问题解决由于磁盘有损坏然后重启Reboot不同的执行方式,名称不一样数组data判断for循环while原创 2020-07-20 18:08:54 · 290 阅读 · 0 评论 -
Linux基本命令学习笔记
Linux基础命令1)用户和组创建、删除、更改和授权2)文件、目录创建、删除、移动、拷贝重命名3)编辑器VI/VIM基本使用4)文件常用操作(内容查看、追加等)1.用户和组Linux系统上,创建用户的时候,默认情况会给我们创建一个用户组(名称和用户名称相同)2.文件在Linux系统下面,文件类型(常见三种类型)1)文件表示形式:-2)目录(文件夹)表示形式:d3)连接(快捷方式)表示形式:l文件权限:1)可读 r2)可写 w3)可执行(针对脚本文件,比如shell脚本)x原创 2020-07-17 23:14:46 · 289 阅读 · 0 评论