自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(129)
  • 收藏
  • 关注

原创 <Zhuuu_ZZ>Python环境配置

Python环境配置一 、在Windows上安装Anaconda3[Windos]二、PyCharm 安装及工程配置[Windows]三、Scrapy 爬虫框架安装配置[Windows]四、PySpark 集成环境搭建[Linux]1、Anaconda 安装2、搭建 PySpark一 、在Windows上安装Anaconda3[Windos]在官网上下载 Anaconda 的安装文件Anaconda3-5.1.0-Windows-x86_64.exe如果操作系统是 Win10 系统,请右

2021-01-29 12:21:42 459

原创 <Zhuuu_ZZ>设计模式—面向接口编程

设计模式一 案例:将Kafka数据上传至Hbase二 分析:当有多个topic需要上传数据至Hbase时三 设计模式:面向接口编程3.1、编写接口IWriter写入Hbase,Hive等3.2、编写类HbaseWriter实现IWriter接口3.3、第二个接口IParseRecord3.4、核心计算逻辑...Handler类实现IParseRecord(1)eventAttendHandler(2)UserFriendHandler3.5、第三个接口IWorker3.6、抽象类ParentWorker实现

2021-01-13 09:57:50 491

原创 <Zhuuu_ZZ>VMware CentOS7增加磁盘容量、内存容量、处理器数量

VMware CentOS7增加磁盘容量、内存容量、处理器数量一、虚拟机增加磁盘容量1、VMware Workstation编辑虚拟机设置2、操作系统中进行分区扩展文件系统二 CentOS7增减内存容量和处理器数量一、虚拟机增加磁盘容量1、VMware Workstation编辑虚拟机设置• 在关机状态下,且删除所有快照或者使用Vmwar evCenter Converter,编辑虚拟机设置• 指定最大虚拟磁盘大小:从20G增加到25G。即本次扩展磁盘容量为5G。2、操作系统中进行分区扩展文件系

2021-01-08 09:06:36 1350 2

原创 <Zhuuu_ZZ>实时流之Apache Flink

Apache Flink

2021-01-06 09:11:52 14391

原创 <Zhuuu_ZZ>Cloudera CDH6安装教学

Cloudera CDH6安装教学一 前置条件二 安装前准备1、所有机器安装JDK2、所有机器关闭防火墙3、所有机器配置主机名与添加互信4、各个节点上传对应安装包5、所有机器安装一些依赖以及删除部分依赖6、所有机器修改一些系统参数7、所有节点配置时间同步8、cdh5节点安装mysql9、所有机器整理mysql的驱动包三 安装CM组件四 cdh1安装CDH组件五 修改server和agent的配置文件六 启动CM,开始CDH集群一 前置条件CentOS7/RHEL7以上本教程使用5台虚拟机搭配,真实集

2020-12-29 17:24:19 1121

原创 <Zhuuu_ZZ>Spark Streaming

Spark Streaming一 Spark Streaming概述1.离线和实时概念2.批量和流式概念3.Spark Streaming是什么4.Spark Streaming特点5.Spark Streaming架构6.背压机制二 DStream入门1.WordCount案例实操2.WordCount解析3.几点注意一 Spark Streaming概述1.离线和实时概念数据处理的延迟离线计算就是在计算开始前已知所有输入数据,输入数据不会产生变化,一般计算量级较大,计算时间也较长。例如今

2020-12-25 08:53:13 1541

原创 <Zhuuu_ZZ>Hive小项目之sql练习50题

四张外部表1)create external table exstudents(sid string,sname string,date string,gender string)row format delimitedfields terminated by ‘\t’lines terminated by ‘\n’stored as textfilelocation ‘/hive/exstudents’;2)create external table excourse(cid

2020-12-17 21:46:52 606

原创 <Zhuuu_ZZ>流式计算之Kafka Stream

流式计算新贵Kafka Stream一 What is Kafka Stream二 Features三 Why need KafkaStream四 Kafka Stream案例1、Maven工程添加依赖2、案例一:实现topic之间的流传输3、案例二:利用Kafka流实现wordcount4、利用Kafka流实现对输入数字的求和5、Kafka Stream实现不同窗口的流处理6、利用Kafka Stream实现数据清洗更多一 What is Kafka StreamKafka Streams。Apach

2020-12-16 21:32:32 922

原创 <Zhuuu_ZZ>Apache Kafka原理&操作大全

Kafka一 Kafka配置下载配置二 测试启动创建topic创建多个分区数的topic查看topic列表具体描述topic创建多个副本数的topic删除topic生产消费实现通信创建生产者信息另开一个窗口创建消费者信息查看kafka的信息储存位置一 Kafka配置下载链接: kafka download.配置解压 tar -zxvf .....重命名为kafka进入cd /opt/kafka/config目录后,修改配置文件vi ./server.properties//21行,ka

2020-12-09 17:20:01 2392 2

原创 <Zhuuu_ZZ>大数据技术之Flume详解

Flume详解一 Flume配置环境配置验证二 Flume测试1、nc2、Netcat Source-Memory Channel-Logger Sink3、Exec Source-File Channel-Logger Sink4、Spooling Directory Source-File Channel-Logger Sink5、Spooling Directory Source-File Channel-HDFS Sink一 Flume配置环境配置解压重命名为flume160进入flume

2020-12-06 19:36:46 969 2

原创 <Zhuuu_ZZ>Maven项目打FatJar胖包

Maven项目打FatJar胖包一 在pom.xml添加build代码二 打Jar包三 Linux执行Jar包四 另一种打Jar包方式一 在pom.xml添加build代码在 </dependencies>下添加<build></build>代码<!--下面代码是为打Jar包时可以导入依赖,成为fatJar胖包--><build> <plugins> <plugin>

2020-12-03 12:53:20 530

原创 <Zhuuu_ZZ>Spark项目实战-航班飞行网图分析

航班飞行网图分析一 项目技能二 项目需求三 数据探索下载数据数据格式四 项目实战构建航班飞行网图统计航班飞行网图中机场与航线的数量计算最长的飞行航线找出最繁忙的机场找出最重要的飞行航线找出最便宜的飞行航线一 项目技能Spark GraphX APIvertices、edges、triplets、numEdges、numVerticesinDegrees、outDegrees、degreesmapVertices、mapEdges、mapTripletsSpark GraphX Page

2020-11-29 21:46:22 1793 5

原创 <Zhuuu_ZZ>Spark GraphX中的三大算法PageRank&ConnectedComponents&Pregel

PageRank&ConnectedComponents&Pregel一 PageRank算法实例实现PageRank算法原理剖析二 ConnectedComponents数据准备图结构实现扩展参考三 Pregelpregel函数源码顶点的激活态和钝化态pregel原理分析pregel代码实现代码分析参考:一 PageRank算法实例实现下面为社交网络关系图,求出最受欢迎的一个人,即直接或间接入度最多的。import org.apache.spark.rdd.RDDimpor

2020-11-26 19:46:15 747 1

原创 <Zhuuu_ZZ>基于Spark GraphX的图形数据分析

Spark GraphX一 为什么需要图计算二 图(Graph)的基本概念三 图的术语1、顶点和边2、有无向图3、有无环图4、度(degrees)四 图的经典表示法-邻接矩阵五 GraphX API1、通过两RDD创建Graph2、通过文件加载方式创建Graph3、构建用户关系属性图4、构建用户社交网络关系六 图的算子1、属性算子mapVertices&mapEdges&mapTriplets一 为什么需要图计算许多大数据以大规模图或网络的形式呈现许多非图结构的大数据,常会被转为图模

2020-11-25 20:03:31 562 1

原创 <Zhuuu_ZZ>Spark项目之log日志数据分析处理

Spark项目之数据分析处理一 项目准备二 项目需求三 项目战斗1、数据清洗日志字段拆分分析IDEA开发程序2、用户留存分析一 项目准备需要分析处理的数据如下日志数据字段数据字典有需要的点击链接获取链接: 项目资料.提取码:599q二 项目需求使用Spark完成下列日志分析项目需求:日志数据清洗用户留存分析活跃用户分析活跃用户地域信息分析用户浏览深度分析三 项目战斗1、数据清洗读入日志文件并转化为RDD[Row]类型按照Tab切割数据过滤掉字段数量少于

2020-11-19 16:39:51 694 3

原创 <Zhuuu_ZZ>Spark(六)之SparkSQL&DataFrame&DataSet

Spark SQL及与Hive的集成一 Spark SQL架构二 运行原理之Catalyst优化器1、运行逻辑2、逻辑计划3、优化4、物理计划三 Spark SQL API1、SparkSession2、Dataset3、使用Case Class创建Dataset4、RDD->Dataset5、DataFrame什么是DataFrameDataFrame API常用操作一 Spark SQL架构Spark SQL是Spark的核心组件之一(Spark Core、Spark SQL、Spark S

2020-11-18 10:26:31 529 1

原创 <Zhuuu_ZZ>Spark之SQL算子50题--DSL编程

Spark之SQL算子50题DSL编程一 创建mysql表之脚本二 IDEA中Spark连接Mysql1、linux虚拟机启动mysql服务2、pom.xml中添加依赖3、编写连接语句三 练习50题(1) 查询\"01\"课程比\"02\"课程成绩高的学生的信息及课程分数(2) 查询\"01\"课程比\"02\"课程成绩低的学生的信息及课程分数(3) 查询平均成绩大于等于60分的同学的学生编号和学生姓名和平均成绩(4) 查询平均成绩小于60分的同学的学生编号和学生姓名和平均成绩:– (包括有成绩的和无成绩的

2020-11-17 20:16:55 954 2

原创 <Zhuuu_ZZ>Spark(五)虚拟机运行Spark程序Jar包

虚拟机运行Spark程序Jar包一 在IDEA编写Scala程序二 生成Jar包三 执行Jar包一 在IDEA编写Scala程序此处简单的就用WordCount来示例为了程序广泛的适用性,所以文件输入输出路径采用了Properties进行了包装成一个文件,该文件可以放在虚拟机上,以供随时修改里面的路径。需要注意的是,单词来源路径和单词统计结果生成文件路径如果是要在虚拟机上运行,其路径不能是windows本机路径,会识别不出来,最好是虚拟机路径或者hdfs路径。IDEA程序import jav

2020-11-12 15:26:53 753

原创 <Zhuuu_ZZ>Spark(四)分布式计算原理

分布式计算原理一 宽依赖和窄依赖1、宽窄依赖含义2、窄依赖的优化有利性3、款窄依赖算子4、WordCount运行中的宽窄依赖二 DAG(有向无环图)工作原理1、有向无环图2、划分Stage3、Shuffle过程4、Shuffle实践三 RDD持久化之cache&persist&checkpoint1、cache和persist一 宽依赖和窄依赖1、宽窄依赖含义Spark中RDD的高效与DAG(有向无环图)有着很大的关系,在DAG调度中需要对计算过程划分stage,而划分依据就是RDD

2020-11-12 14:42:43 339

原创 <Zhuuu_ZZ>Spark(三)RDD算子大全

RDD算子大全,你想要的我都有一 ScalaRDDSparkContextfiltermapmapValuereduceByKeygroupByKeysortByKeydistinctunion/++intersectionjoinleftOuterJoinrightOuterJoinfullOuterJoinReducesaveAsTextFile二 JavaRDDJavaSparkContextparallelizetextFilefilter一 ScalaRDDSparkContextobjec

2020-11-10 20:14:30 339

原创 <Zhuuu_ZZ>Spark(二)架构分析

Spark它终于来了。。。

2020-11-04 15:08:13 161

原创 <Zhuuu_ZZ>正则表达式

正则一 简介二 语法非打印字符特殊字符预定义字符三 Java正则表达式java.util.regex包分组()命名分组一 简介正则表达式描述了一种字符串匹配的模式,也称规则表达式常用于检索、替换符合指定模式(规则)的文本大多数语言都支持正则表达式JavaPythonJavaScript……二 语法非打印字符特殊字符预定义字符三 Java正则表达式java.util.regex包Pattern类:表示一个正则表达式,或者说匹配模式Matcher类:Patter

2020-11-03 16:28:19 131

原创 <Zhuuu_ZZ>Spark(一)老生常谈的环境配置

快乐的装机又来了一 下载安装包1 官网下载2 网盘下载二 上传Linux虚拟机及解压三 内置文件配置四 环境变量配置五 测试1 本地模式`spark-shell`2 `spark-shell --master local[*]`3 `spark-shell master local[2]`4 单机模式一 下载安装包1 官网下载链接: Apache Spark.2 网盘下载链接: spark-2.4.5-bin-hadoop2.6.tgz.提取码:0pmd二 上传Linux虚拟机及解压上传压缩

2020-10-30 15:23:34 195

原创 <Zhuu_ZZ>Scala(八)与数据库的JDBC

Scala对于数据库的操作首先在Mysql里建库建表CREATE DATABASE scalademoUSE scalademoCREATE TABLE student(id INT(10) PRIMARY KEY AUTO_INCREMENT,NAME VARCHAR(32),age INT(10))INSERT INTO student(NAME,age) VALUES("zs",18),("ls",21)SELECT * FROM student然后在IDEA里写

2020-10-29 16:40:59 116

原创 <Zhuuu_ZZ>Scala(七)部分函数&偏函数

目录部分函数偏函数部分函数//部分函数object Test1 { def main(args: Array[String]): Unit = { def showMsg(title:String,content:String,num:Int):Unit={ println(title+":"+content+" "+num+" 米") } showMsg("警告","当前水位是",12) //警告:当前水位是 12 米 val title="注意"

2020-10-26 16:03:48 197

原创 <Zhuuu_ZZ>Scala(六)伴生类和伴生对象&特质&斜变、逆变、不变

伴生类和伴生对象&特质&斜变、逆变、不变伴生类和伴生对象特质不变、协变、逆变伴生类和伴生对象对比着Java的无参构造、有参构造、静态方法来看public class MyStaticClass { public static String name="大唐"; public static int age=289; public MyStaticClass(){ //无参构造 } public MyStaticClass(String nam

2020-10-23 17:27:58 281

原创 <Zhuuu_ZZ>Scala(五)模式匹配&隐式参数、函数、类

目录模式匹配练习成绩匹配case 后接if条件完成二次筛选case 后接_x变量接收输入值异常类型匹配Array匹配List匹配元组匹配case class与模式匹配Option与模式匹配/Some()/None调用代码隐式参数隐式包隐式参数在隐式包内隐式函数在隐式包内隐式类在隐式包内功能增加模式匹配练习模式匹配不关心泛型,即Map[String,Int]和Map[Int,String]对于模式匹配是一样的,只要是个Map就会匹配上。成绩匹配def match1(score:String):

2020-10-22 20:05:02 253

原创 <Zhuuu_ZZ>Scala(四)高阶函数

Scala之高阶函数嵌套函数两层嵌套三层嵌套形参是函数,返回是函数函数柯里化模式匹配样例类隐式参数嵌套函数两层嵌套需求:输入一个字符串,判断这个字符串的长度跟5的大小分别输出两个数不同的结果object Test1 { def main(args: Array[String]): Unit = { //第一种方法:先判断后内置函数// def fun(s: String): (Int, Int) => Int = {// if (s.length &gt

2020-10-21 17:02:00 238

原创 <Zhuuu_ZZ>Scala(三)函数

Scala函数Lambda表达式Scala元组Scala函数wordcount函数定义递归调用:传递参数匿名函数传递函数匿名函数传递函数作为参数进行传递方法返回参数是函数Lambda表达式函数式接口一种只含有一个抽象方法声明的接口可以使用匿名内部类来实例化函数式接口的对象通过Lambda表达式可以进一步简化代码先定义一个接口:public interface TestInterface { public Integer panduan(String a,Integer b);}

2020-10-20 14:43:26 250

原创 <Zhuuu_ZZ>Scala(二)数组方法大全---最详细

Array Of Scala数组的三种创建方式数组的三种创建方式object demoArray { def main(args: Array[String]): Unit = { //数组创建方式一 var array:Array[String]=new Array[String](3) array(0)="hello" array(1)="world" array(2)="scala" println(array(0)) //数组创建方式二

2020-10-20 13:56:02 1178 1

原创 <Zhuuu_ZZ>Scala(一)从入门到入土

Scala从入门到入土一 概述二 Scala关键字列表三 Scala数据类型四 字符串插值五 Scala条件控制if语句循环控制一 概述面向对象特性每个值都是对象对象的数据类型和行为由类(Class)和特征(Trait,类似interface)描述利用特征实现混入式多重继承函数式编程每个函数都是一个值支持高阶函数、柯里化(currying)、样例化(case class)及模式匹配Scala是静态类型语言即先编译后执行,对比html动态类型语言扩展性:隐式类、字符串插值

2020-10-19 15:48:25 250

原创 <Zhuuu_ZZ>Scala开发环境搭建

Scala不同环境下的安装一 在windows系统安装Scala下载安装包添加系统环境变量验证scala在windows系统是否安装成功二 IDEA添加Scala插件查看scala插件版本:三 Linux下搭建Scala开发环境下载压缩包安装一 在windows系统安装Scala下载安装包链接: Scala2.11.12.msi下载网址.下载之后一直下一步,自己选择安装位置即可。添加系统环境变量然后一直确定就行。验证scala在windows系统是否安装成功打开命令提示符,在w

2020-10-19 14:29:06 216

原创 <Zhuuu_ZZ>Hive之别名&执行顺序&聚合函数(distinct )问题

Hive之别名使用规则和count问题一、在mysql中二、在hive中:三、聚合函数(distinct 字段)一、在mysql中group by中可以使用别名;where中不能使用别名;order by中可以使用别名。二、在hive中:1)where/group by/having子句中只能直接使用栏位或者常量,而不能使用栏位的别名,除非这个别名来自子查询之中,如:select .... from (select col1 ccc from table) where ccc > 1;2)而

2020-10-15 19:43:13 1192

原创 <Zhuuu_ZZ>Hive笔试题

Hive笔试题题目一:题目二:题目三:题目一:学生表(STUDENT)的字段含义:SNO 代表学号,SNAME 代表学生姓名,SAGE 代表学生年龄,SSEX 代表学生性别课程表(COURSE)的字段含义:CNO 代表课程编号,CNAME 代表课程名字,TNO 代表教师编号,成绩表(SC)的字段含义:SNO 代表学号,CNO 代表课程编号,SCORE 代表成绩教师表(TEACHER)的字段含义:TNO 代表教师编号,TNAME 代表教师姓名查询所有学生的学号、姓名

2020-10-15 18:20:29 370

原创 <Zhuuu_ZZ>HIVE(终)项目:新零售电商数据仓库系统

新零售电商数据仓库系统项目一、前言二、业务表模型三、准备1、导入表格2、创建用户宽表3、生成pc分区表4、生成app分区表四、用户访问时间分析1、pc端指标创建user_pc_visit总表2、app端指标创建user_app_visit总表3、综合指标综合app和pc访问的总表user_visit五、用户订单分布1、订单指标订单指标终表2、下单分布下单分布总表)有需要项目资料的小伙伴请下方留言哦![image.png](https://img-blog.csdnimg.cn/img_conve

2020-10-15 08:47:51 1571 1

原创 <Zhuuu_ZZ>HIVE(终)总结大全:是兄弟就来三连我

HIVE总结大全一 Hive入门1 什么是Hive2 Hive的优缺点2.1 优点2.2 缺点3 Hive架构原理4 Hive和数据库比较4.1 查询语言4.2 数据存储位置4.3 数据更新4.4 索引4.5 执行4.6 执行延迟4.7 可扩展性4.8 数据规模二 Hive 安装三 Hive常见属性配置1 Hive数据仓库位置配置2 查询后信息显示配置3 Hive运行日志信息配置4 参数配置方式四 Hive数据类型1 基本数据类型2 集合数据类型3 类型转化五 DDL数据定义1 创建数据库2 查询数据库2.

2020-10-14 20:18:26 1367 1

原创 <Zhuuu_ZZ>HIVE(终)项目:电子商务消费行为分析

HIVE项目:电子商务消费行为分析一 项目准备一 项目准备项目PPT:链接: link.项目数据:链接: link.zeppelin在线编程资料:链接: link.

2020-10-14 09:40:09 932 4

原创 <Zhuuu_ZZ>数据仓库

数据仓库一 Why二 What三 面向主题提取主题四 集成五 非易失六 随时间变化七 项目-基于物联网的物流数仓系统一 Why数据不兼容, 很难被整合战略决策需要数据的分析推荐系统二 What数据仓库是一个面向主题的、集成的、非易失的且随时间变化的数据集合三 面向主题主题(Subject)是在较高层次上将企业信息系统中的数据进行综合、归类和分析利用的一个抽象概念每一个主题基本对应一个宏观的分析领域在逻辑意义上,它是对应企业中某一宏观分析领域所涉及的分析对象例如“销售分析”

2020-10-08 17:31:10 457 1

原创 <Zhuuu_ZZ>Hadoop框架体系(超全哦)

Hadoop框架体系包含了Hadoop1000+个知识点,其中有HDFS,Hadoop Concept,Hadoop Common,Hadoop Core,zookeeper,Hive,Hbase,Sqoop等的综合知识点。热门的mapreduce分析,yarn分析这里都有。

2020-10-08 17:10:53 152

原创 <Zhuuu_ZZ>Sqoop数据迁移

Sqoop数据迁移一 从RDB导入数据到HDFS1 导入表到HDFS2 通过Where语句过滤导入表3 通过COLUMNS过滤导入表4 使用query方式导入数据一 从RDB导入数据到HDFS1 导入表到HDFSsqoop-import --connect jdbc:mysql://hadoopwei:3306/hive \--driver com.mysql.jdbc.Driver \--table PARTITIONS \--username root \--password ok \-

2020-09-29 16:26:44 247

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除