喵喵秀拌酱-CSDN博客

原创 impala的使用以及安装

之前上课内容的回顾：zookeeperhadoop （hdfs+mapreduce）hive：数据仓库的工具主要用来做数据分析的数据仓库主要是面向数据分析的 OLAP数据库主要是面向事务处理的 OLTPflume：日志数据采集的一个工具exec Source tail -FspoolingDir source 监控某个文件架下面的文件avro Source 网络传输，从上级avro sink里面接受数据TailDir Source 可以按照正则匹配，收集某一类的文件chan

2021-01-19 23:41:33 1159

原创 hive级联求和、三大框架的搭建以及echarts的基本使用

hive级联求和create table t_salary_detail(username string,month string,salary int)row format delimited fields terminated by ‘,’;load data local inpath ‘/export/servers/weblog/accumulate.txt’ into table t_salary_detail;用户时间收到小费金额A,2015-01,5A,2015-01,15B

2020-12-30 18:28:34 710

原创数仓基础和网站流量分析

数仓的设计：（写sql）维度建模的基本概念：**维度表：**时间的维度：昨天地点：星巴克金钱的维度：两百块维度表看到的事情比较狭窄，仅仅从某一个方面来看，只能看得到某一块的东西事实表：没发生的东西，一定不是事实，事实一定是建立在已经发生过的事情上面例子：昨天我去星巴克喝了一杯咖啡，花了两百块维度建模(dimensional modeling)是专门用于分析型数据库、数据仓库、数据集市建模的方法。数据集市可以理解为是一种"小型数据仓库"。维度表(dimension)**维度表示你要

2020-12-25 17:19:31 603

原创网站点击流日志数据分析

网站点击流日志数据分析点击流数据：关注的是用户访问网站的轨迹，按照时间来进行先后区分基本上所有的大型网站都有日志埋点通过js的方式，可以获取到你再网站上面点击的所有的链接，按钮，商品，等等，包括你访问的url的链接等等js埋点，谁来做？？？专业的前端来做的埋点收集的数据，都发送到日志服务器一条日志大概1Kb来算数据全部在日志服务器分析用户的点击数据，得到我们的点击流模型pageView模型：重视的是每一个页面受到的访问情况，每访问一个页面，就算一条记录visit模型：重视的是每一个s

2020-12-23 17:35:38 1499

原创 sqoop导入导出工具的使用以及通过java代码连接linux，远程执行shell命令

1、sqoop是apache开源提供的一个数据导入导出的工具，从关系型数据库导入到hdfs，或者从hdfs导出到关系型数据库等等导入数据：MySQL，Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统；导出数据：从Hadoop的文件系统中导出数据到关系数据库mysql等**原理：**通过MR的inputformat和outputformat来实现数据的输入与输出，底层执行的全部都是MR的任务，只不过这个mr只有map阶段，没有reduce阶段说白了只是对数据进行抽取，从

2020-12-06 22:02:01 535

原创 Azkaban实战

Azkaban实战Azkaba内置的任务类型支持command、javaCommand类型单一job示例1.创建job描述文件2.创建文本文件，更改名称为mycommand.job注意后缀.txt一定不要带上，保存为格式为UFT-8 without bom内容如下type=commandcommand=echo ‘hello world’3.将job资源文件打包成zip文件4.创建project并上传压缩包通过azkaban的web管理平台创建project并上传job压缩包首先创建

2020-12-06 21:13:42 218

原创 flume案例

第一个案例：flume采集网络端口的数据第二个案例：监控某一个目录下面的所有的文件，只要目录下面有文件，收集文件内容，上传到hdfs上面去14sink：hdfsSinksource： spooldirspooldir特性：1、监视一个目录，只要目录中出现新文件，就会采集文件中的内容2、采集完成的文件，会被agent自动添加一个后缀：COMPLETED3、所监视的目录中不允许重复出现相同文件名的文件（flume比较脆弱，一旦抛异常，就会停止工作，只能手动重启）channel：memory

2020-11-12 17:48:13 404 1

原创 hive的存储格式、hive的调优、flame的基础知识part1

1.数据存储的格式：两大类：列式存储、行式存储四小种：行式存储：TEXTFILE、SEQUENCEFILE列式存储：ORC、PARQUENT注意：一般原始数据都是以textfile这种形式存储的经过分析之后通过insert overwrite select 将我们分析出来的结果插入到另一张临时表里面就可以使用parquet或者orc这些列式存储格式存储与压缩相结合：存储格式和压缩方式没有关系实际工作当中，一般存储格式与压缩方式都会一起使用log_orc 2.8M 因为orc格式的数据默认带来

2020-11-06 00:18:38 421

原创数据仓库相关知识以及hive相关知识

1.hive的基本操作1.1建库语法create database if not exists myhive;use myhive;创建的数据库默认路径是在：11创建数据库并制定hdfs存储位置create database myhive2 location ‘/myhive2’;修改数据库信息可以使用alter database 命令来修改数据库的一些属性。但是数据库的元数据信息是不可更改的，包括数据库的名称以及数据库所在的位置alter database myhive2 se

2020-10-23 21:50:26 847

原创数据仓库的基本概念、hive的安装部署、hive使用mysql作为元数据库存储的安装配置、hive的使用方式

大纲：数仓的工具hive1.数据仓库的概念了解2.hive的基本概念以及hive的安装搞定3.hive的基本操作掌握4.hive的shell参数了解5.hive当中的函数了解6.hive当中的数据压缩 snappy 知道7.hive当中的数据存储格式掌握8.存储格式与压缩方式的相结合知道9.hive的调优尽量多背几个10.hive的语句练习作业1.数据仓库的基本概念1.1什么是数据仓库仓库就是用来存储东西的，不生产不消耗，是外界

2020-09-26 21:43:32 484

原创自定义groupingCompatator实现分组求top1和topN

1.自定义groupingCompatator实现分组求top1 topNOrder_0000001 Pdt_01 222.8Order_0000001 Pdt_05 25.8Order_0000002 Pdt_03 522.8Order_0000002 Pdt_04 122.4Order_0000002 Pdt_05 722.4Order_0000003 Pdt_01 222.8求取每给订单当中，金额最大的那个商品的价格是多少求前

2020-09-25 21:19:13 362

原创求共同好友、自定义inputformat实现小文件的合并以及自定义outputFormat实现我们的数据输出到不同的路径下面去

1.社交粉丝数据分析：求共同好友public class Step1Reducer extends Reducer<Text,Text,Text,Text> {//reduce接收到的数据 B 【A，E】// B 是我们的好友集合里面装的是多个用户//将数据最终转换成这样的形式进行输出 A-B-E-F-G-H-K- Cpublic class Step1Mapper extends Mapper<LongWritable, Text,Text,Text> {

2020-09-25 00:12:55 148

原创 mapreduce（手机号的分区）、mapTask的运行机制和并行度

排序、合并都是作用在K2上手机号的分区在统计求和的基础上，继续完善，将不同的手机号分到不同的数据文件的当中去，需要自定义分区来实现，这里我们自定义来模拟分区，将不同数字开头的手机号进行分开public class PhonePartition extends Partitioner<Text,FlowNum> { /** * 接收我们K2 V2 以及reduce的个数 * @param text * @param flowNum * @par

2020-09-15 16:29:24 376

原创 MapReduce的分区、排列、规约以及流量统计求和

1.MapReduce当中的分区mapreduce当中的分区：物以类聚，人以群分，相同key的数据，去往同一个reducereducetask的数量通过我们自己手动指定 job.setNumReduceTasks(3);1分区代码逻辑2

2020-09-09 23:19:31 712

原创 hdfs的javaAPI操作

hdfs的javaAPI操作*递归遍历hdfs上面所有的文件出来 */ @Test public void getAllFile() throws IOException { //获取文件系统 FileSystem fileSystem = FileSystem.get(new URI("hdfs://node01:8020"),new Configuration()); fileSystem.listStatus(new Path("hdfs:

2020-09-06 23:22:02 649

原创分布式文件系统hdfs详细介绍

课程回顾：1、hadoop的发展历史简介2、hadoop的历史版本3、hadoop的三大发行公司 apache 开源版本 CDH版本所有软件的兼容性，软件的升级都做好了元数据：描述数据的数据4、hadoop1.x与2.x的架构模型区别1.x架构：HDFS:namenode:主节点，管理元数据信息，处理用户的请求secondarynamenode：辅助namenode管理元数据datanode：从节点，主要用于存储数据MapReduce：JobTracker：主节点，接收用户请求

2020-08-26 00:32:24 1399

原创 HDFS的特性、分布式文件系统的基本命令使用、高级使用命令、基准测试

hdfs：hadoop distributed file system 作为最底层的分布式文件存储系统而存在，可以存储海量的数据分布式文件系统解决的问题就是大数据存储。它们是横跨在多台计算机上的存储系统。分布式文件系统为存储和处理超大规模数据提供所需的扩展能力。11.HDFS的特性首先，它是一个文件系统，用于存储文件，通过统一的命名空间目录树来定位文件；其次，它是分布式的，由很多服务器联合起来实现其功能，集群中的服务器有各自的角色。**1.1master/slave架构：**主从架构n

2020-08-22 22:02:34 517

原创 hadoop伪分布式和完全式环境搭建以及CDH 伪分布式环境搭建

1.伪分布式环境搭建（适用于学习测试开发集群模式）1停止单节点集群，删除/export/servers/hadoop-2.7.5/hadoopDatas文件夹，然后重新创建文件夹1.1第一台机器执行以下命令cd /export/servers/hadoop-2.7.5sbin/stop-dfs.shsbin/stop-yarn.shsbin/mr-jobhistory-daemon.shstop historyserver1.2删除hadoopDatas然后重新创建文件夹rm -rf

2020-08-21 16:44:57 279

原创 hadoop基础知识

你好

2020-08-18 01:33:11 355

原创 zookeeper相关知识

1.zk集群环境的安装对于安装leader+follower 模式的集群，大致过程如下：1.配置主机名称到 IP 地址映射配置2.修改ZooKeeper 配置文件3.远程复制分发安装文件4.设置myid5.启动ZooKeeper 集群第一步：下载zookeeper的压缩包，下载网址：http://archive.apache.org/dist/zookeeper/第二步：解压zookeeper的压缩包到/export/servers路径下去，然后准备进行安装cd /export/soft

2020-08-16 22:23:17 247

原创 Linux当中的shell编程

1.linux的shell编程linux当中的shell是一门脚本语言，所见即所得shell变成一般指代shell脚本的开发，不是指代shell内核的开发Linux 的 Shell 种类众多，一个系统可以存在多个 shell，可以通过 cat /etc/shells 命令查看系统中安装的 shell。统一两个路径mkdir -p /export/softwares 存放我们的软件的压缩包mkdir -p /export/servers 存放我们软件解压之后的路径shell脚本第一行约

2020-08-13 21:56:22 316

原创 zk的基本概述以及架构模型

zookkeeper学习1.zk介绍：一个分布式的服务协调框架，主要用于协调辅助其他的框架正常运作主要是为了解决应用系统当中的一致性问题zk本质上是一个分布式的小文件存储系统：zk上面的每个文件最好不要超过1M分布式：每台机器看到的数据都是一样的提供基于类似于文件系统的目录树方式的数据存储，并且可以对树中的节点进行有效管理。从而用来维护和监控你存储的数据的状态变化。通过监控这些数据状态的变化，从而可以达到基于数据的集群管理。诸如：统一命名服务(dubbo)、分布式配置管理(solr的配置集中管

2020-08-13 21:51:00 1219

原创 linux基础增强以及用户与用户组

2020-08-12 00:06:10 209

原创大数据_Hadoop离线学习之三台机器的联网

1.三台虚拟机网络的连接（重点）2.linux的增强（部分重点）3.linux的shell编程（重点）4.大数据集群环境的准备（重点）5.zookeeper （ zk的安装（重点）、zk的特性、api的操作、节点的知识（尽量搞定））6.网络编程（了解）windows 系统查看所有的服务命令 services.msc...

2020-08-11 18:23:39 547

原创 MySQL基础知识学习part4

1.mysql中运算符的使用1.1算术运算符对NULL进行运算后结果都是NULL1.2比较运算符1为真，0为假1.3逻辑运算符1.4运算符的优先级2.数学函数库**3.字符串函数库注意：字符串连接中有NULL的话，连接结果为NULL注意：以指定分隔符连接字符串中，若分隔符为NULL，则连接结果为null；若连接的字符串中有NULL，连接结果不包含NULL，NULL相当于一个空字符串。注意：将字符串s中搜索S1，替换成S2中，

2020-07-31 21:36:13 213

原创 MySQL基础知识学习part3

1.通过ORDER BY对查询结果排序1.1升序：ASC ，NULL值是最小降序：DESC还可以通过字段的位置来排序1.21.41.3随机文章或者随机记录的提取1.61.52.通过limit限制显示条数1.71.81.92.02.12.23.更新删除应用order by和limit2.32.4注意：在更新数据的时候，使用限制修改条数只能用LIMIT的一个参数的形式。2.54.内连接查询连接查询：是将两个或两个以上的表按某个条件连接起来，从中选取需要的数据。连接

2020-07-29 22:14:32 244

原创 MySQL基础知识笔记part2

121.测试自增长（AUTO_INCREMENT）注意：一个表中只能有一个自增长字段，被标志成自增长的字段一定是主键，但是主键不一定是自增长的。而且，自增长只对整数列，整数对有效。对于字符串无意义。1.11.21.31.41.51.6修改自增长的值1.72.非空约束（NOT NULL）1.81.93.测试默认值（DEFAULT）NOT NULL会配合DEFAULT一起来使用2.02.12.22.34.测试唯一性约束（UNIQUE KEY）（一个表中只能有一个主键，但

2020-07-28 23:18:51 190

原创 MySQL基础学习笔记part1

数据库简介数据库就是存储数据的仓库。为了方便数据的存储和管理，将数据按照特定的规律存储在磁盘上，通过数据管理系统，有效地组织和管理存储在数据库中的数据。数据库系统：数据库系统和数据库不是一个概念，数据库系统（DBS),比数据库大很多，由数据库、数据库管理系统，应用开发工具构成。数据库管理系统：用来定义数据、管理和维护数据的软件。它是数据库系统的一种重要的组成部分。常见的数据库系统：甲骨文Oracle数据库、MySQL等MySQL数据库：开放源代码的数据库、具有跨平台性、开源免费、功能强大使用免费

2020-07-25 23:02:35 274

原创 Shall基础编程

虚拟机重启出现问题解决由于磁盘有损坏然后重启Reboot不同的执行方式，名称不一样数组data判断for循环while

2020-07-20 18:08:54 333

原创 Linux系统管理

2020-07-19 17:14:58 531

原创 Linux基本命令学习笔记

Linux基础命令1）用户和组创建、删除、更改和授权2）文件、目录创建、删除、移动、拷贝重命名3）编辑器VI/VIM基本使用4）文件常用操作（内容查看、追加等）1.用户和组Linux系统上，创建用户的时候，默认情况会给我们创建一个用户组（名称和用户名称相同）2.文件在Linux系统下面，文件类型（常见三种类型）1）文件表示形式：-2）目录（文件夹）表示形式：d3）连接（快捷方式）表示形式：l文件权限：1）可读 r2）可写 w3）可执行（针对脚本文件，比如shell脚本）x

2020-07-17 23:14:46 349

原创 Linux基本环境

1.21.1支持以上的四类操作系统，但在企业中使用最多的还是RedHat（CentOS，与RedHat发行版本不一样），其次是Sles。虚拟化工具VMWare（1）安装VMWare虚拟机软件（2）创建虚拟机（3）安装CentOS 6.7操作系统（4）导入已经安装好的虚拟机Linux用户对于Linux系统安装时，有一个默认的超级管理员用户root （root/123456）登录到Linux系统，命令行界面时，[root@zsx ~]#用户名主机名称所在目录名称有两个字符

2020-07-16 23:47:17 1963

原创 JAVA基础知识学习之part14——IO流2

1字节缓冲区流的概述和使用2.字节流四种方式复制AVI并测试效率3.转换流出现的原因4.编码表的概述和常见的编码表5.String类中的编码和解码问题6.转换流中的转码和解码问题7.OutputStreamWriter写数据的5种方式8.InputStreamReader的数据的2种方式选中文件后按F2（或者Fn，F2）可以重命名文件9.字符流练习之复制JAVA文件10字符流的练习之复制JAVA文件改进版11字符缓冲区流的概述和使用

2020-07-11 01:37:09 201

原创 JAVA基础知识学习之part12——IO流（下）

11FileOutputStream写数据字节流：InputStream 字节输入流OnputStream 字节输出流字符流：Reader 字符输出流Writer 字符输出流字节流写数据：OutputStream:此抽象类是表示输出字节流的所有类的超类FileOutputStream:文件输出流是用于将数据写入 File构造方法：FileOutputStream(String name):创建一个向具有指定名称的文件中写入数据的输出文件流

2020-07-09 23:18:04 195

原创 JAVA基础知识学习之part12——IO流（上）

IO流：1.异常2.File3.字节流4.转换流5.字符流1.异常：就是程序出现了不正常的情况例如：ArithmeticException:当出现异常的运算条件时，抛出此异常。例如，一个整数“除以零”时，抛出此类的一个实例。Throwable类是Java语言中所有错误或异常的超类Error是Throwable是子类，用于指示合理的应用程序不应该视图捕获的严重问题。也就是说针对程序发生了Error的情况，Java程序本身是无能为力的，比如说：硬件层面的问题。内存不足等。所以，针对Error

2020-07-09 00:58:46 155

原创 Java基础知识学习之part12——Map集合

1.set集合的特点2.HashSet保证元素唯一性的原理Ctrl+右键：进入方法源码3.HashSet集合存储自定义对象并遍历4.HashSet集合的练习存储自定义对象保证元素唯一性5.创建Map集合对象并添加元素6.Map集合的成员方法（1）V put (k key,V value):添加元素（2）V remove（Object key）：根据键删除键值对元素（3）void clear（）：移除所有的键值对元素（4）boolean containsKey(Obj

2020-07-07 00:37:49 214

原创 java基础知识学习之part11

1.集合类：我们学习的是面向对象的编程语言，面向对象的编程语言对事物的描述都是通过对象体现的，为了方便对多个对象进行操作，我们就必须把这多个对象进行存储，而想要存储多个对象，就不能是基本的变量了，应该是一个容器类型的变量。之前学过的容器类型的变量有：StringBuilder和数组首先说StringBuilder，它的结果是一个字符串，不一定满足我们的需求，所以我们只能选择数组了，而数组的长度固定，不能适应变化的需求，在这种情况下，java就提供了集合类给我们使用。由此可见，集合类的长度是可变的。集合

2020-06-20 16:07:28 209

空空如也

空空如也