笔记
文章平均质量分 67
超可爱慕之
人生中的每一段低潮,都是命运给你特批的长假。
展开
-
2021.9.19一些GitHub使用遇到的问题及解决方案
1.git如何撤销已经push到远程仓库的代码提交1.首先通过git log查看提交信息git log2.需要撤销的提交的版本号324af277e29b737f657cb0108d78c6b9b65b107b需要撤销的前一次版本号deaa497d7260c8441379c8b01f03ff484ad2321b3.需要回退到这次提交的前一个版本通过git reset --soft <版本号>重置至指定版本的提交,达到撤销提交的目的。git reset --soft deaa原创 2021-09-19 15:50:35 · 626 阅读 · 2 评论 -
2021.2.25数据倾斜问题的讨论
有这样一个RDD1(A,1),(A,2),(A,3),(B,1),(C,1)这样一个RDD2(A,100),(B,90),(C,60)将这两个RDDjoin的时候:(A,(1,100)),(A,(2,100)),(A,(3,100)),(B,(1,90)),(C,(1,60))发生数据倾斜,怎么解决这个场景下的数据倾斜:这个解决方案一定要牢牢记着,只要面试官不low一定会问你可以先把RDD1进行拆分:将导致数据倾斜的key分到一个RDD,数据比较均匀的key分到另外一个RDD把RDD1原创 2021-02-26 08:27:06 · 151 阅读 · 0 评论 -
准备的一些资料
学习部分已经告一段落了,在准备项目的时候,找了一些资料作为补充。《基于Flink平台的资源感知任务调度策略》由于流式数据具有实时性、突发性、无序性、无限性等特点,传统的先存储后计算的批量计算理念已经不适用于实时流计算的处理,因此如何构造高吞吐、低延时的大数据流式计算系统称为当前亟待解决的问题,然而面对大规模高速无序的数据流,任务负载不均衡导致计算节点可能存在资源过剩或资源不足的问题,从而影响计算集群的吞吐量,资源利用率等性能ApacheFlink是一个由两类节点构成的开源分布式流式计算处理框架。(1原创 2021-02-22 23:36:34 · 287 阅读 · 0 评论 -
2021.1.30课堂笔记(python中使用正则表达式)
Python正则表达式模块re模块常用方法表达式说明compile()用于编译正则表达式,生成一个正则表达式( Pattern )对象match()查看字符串的开头是否符合匹配模式,如果匹配失败,返回nonesearch()扫描整个字符串并返回第一个成功的匹配findall()在字符串中找到正则表达式所匹配的所有子串,并返回一个列表,如果没有找到匹配的,则返回空列表sub()替换字符串中的匹配项符号说明示例逐字匹配r原创 2021-01-30 12:59:42 · 198 阅读 · 0 评论 -
2021.1.28课堂笔记(日期时间函数)
写SQL的时候不可避免的在日志文件中会遇到很多日期时间,这些日期时间的格式多种多样,往往也不如人意,有时也不能简单的提取出准确的时间。再加上会有很多需要用到时间的需求分析,所以日期时间函数掌握的好,可以加快效率。。在SQL语法里提供了很多处理的函数:日期函数返回值函数描述stringfrom_unixtime(bigint unixtime[, string format])将时间戳转换成format格式intunix_timestamp()获取本地时区下的时间戳原创 2021-01-28 19:59:14 · 382 阅读 · 0 评论 -
2021.1.26课堂笔记(对于hive中的表,提取特征做需求分析)
接1.12日的博客:create external table locale(locale_id int,locale string)row format delimitedfields terminated by '\t'location '/user/event/data/locale';create external table time_zone(time_zone_id int,time_zone string)row format delimitedfields原创 2021-01-26 00:42:13 · 308 阅读 · 0 评论 -
2021.1.24
发现有问题评论区留言~~原创 2021-01-24 12:40:29 · 1472 阅读 · 11 评论 -
2021.1.19课堂测试3
操作技能试卷注意:考试结束试卷必须交回,不交回试卷者成绩无效一、环境要求Hadoop+Hive+Spark+HBase 开发环境。二、提交结果要求1.必须提交源码或对应分析语句,如不提交则不得分。2.带有分析结果的功能,请分析结果的截图与代码一同提交。三、数据描述UserBehavior 是阿里巴巴提供的一个淘宝用户行为数据集。本数据集包含了 2017-09-11至 2017-12-03 之间有行为的约 5458 位随机用户的所有行为(行为包括点击、购买、加购、喜欢)。数据集的每一行表示.原创 2021-01-20 11:39:05 · 562 阅读 · 0 评论 -
2021.1.16课堂测试2
操作技能试卷注意:考试结束试卷必须交回,不交回试卷者成绩无效一、环境要求Hadoop+Hive+Spark+HBase 开发环境。二、提交结果要求1.必须提交源码或对应分析语句,如不提交则不得分。2.带有分析结果的功能,请分析结果的截图与代码一同提交。三、数据描述meituan_waimai_meishi.csv是美团外卖平台的部分外卖 SPU(Standard Product Unit , 标准产品单元)数据,包含了外卖平台某地区一时间的外卖信息。具体字段说明如下:(表 1 美团外卖 S.原创 2021-01-16 17:56:09 · 710 阅读 · 0 评论 -
2021.1.14课堂测试1
课堂测试1一、环境要求sandbox-hdp 2.6.4 或同等版本自建的 Hadoop+Hive+Spark+HBase 开发环境。二、提交结果要求1.必须提交源码或对应分析语句,如不提交则不得分。2.带有分析结果的功能,请分析结果的截图与代码一同提交。三、数据描述这是一份来自于某在线考试系统的学员答题批改日志,日志中记录了日志生成时间,题目难度系数,题目所属的知识点 ID,做题的学生 ID,题目 ID 以及作答批改结果。日志的结构如下:四、功能要求1.数据准备(10 分)请在 HDFS.原创 2021-01-14 16:30:43 · 545 阅读 · 0 评论 -
2021.01.12课堂笔记(将Kafka中的数据写入HBase)
第一步:使用flume将csv文件的内容写入Kafka编写flume的conf文件:userFriends.sources=userFriendsSourceuserFriends.channels=userFriendsChanneluserFriends.sinks=userFriendsSinkuserFriends.sources.userFriendsSource.type=spooldiruserFriends.sources.userFriendsSource.spoolDir=原创 2021-01-12 20:18:14 · 449 阅读 · 0 评论 -
使用kubeadm快速部署一个K8s集群
kubeadm是官方社区推出的一个用于快速部署kubernetes集群的工具。这个工具能通过两条指令完成一个kubernetes集群的部署:# 创建一个 Master 节点$ kubeadm init# 将一个 Node 节点加入到当前集群中$ kubeadm join <Master节点的IP和端口 >1. 安装要求在开始之前,部署Kubernetes集群机器需要满足以下几个条件:一台或多台机器,操作系统 CentOS7.x-86_x64硬件配置:2GB或更多RAM,2原创 2021-01-07 08:40:07 · 225 阅读 · 0 评论 -
2021.1.5课堂笔记(flink的transform操作)
DataStream的connect和union算子:import nj.zb.source.WaterSensorimport org.apache.flink.streaming.api.scala.{DataStream, SplitStream, StreamExecutionEnvironment}import org.apache.flink.streaming.api.scala._object Transform_Connect { def main(args: Array[S原创 2021-01-05 15:14:02 · 179 阅读 · 0 评论 -
2021.1.5课堂笔记(flink读取数据source源)
使用flnk读取数据源原创 2021-01-05 12:13:32 · 209 阅读 · 0 评论 -
2020.12.28课堂笔记(《Scala 入门》学习指导)
《Scala 入门》学习指导一、Scala 简介Scala 是一种基于 JVM 的多范式编程语言,这里的范式可以理解为一种编程风格,比如面向对象编程就是一种范式。常见范式包括:面向过程、面向对象、泛型以及函数式编程。1.1 Scala 的特点1.1.1 静态类型Scala 的变量声明后不允许改变类型,换句话说所有变量和表达式的类型在编译时就已经完全确定。这一点和 Java 是一样的,反过来说像 Python 则是动态类型语言。静态类型语言对 IDE 比较友好 ,IDE 可以做到很好的代码感知能力原创 2020-12-28 11:45:35 · 287 阅读 · 0 评论 -
2020.12.24课堂笔记(Hadoop阶段考试参考答案)
一、不定项选择题(1-12题每题2分,13题3分,共27分)下面那个程序负责HDFS数据存储(C)?A NameNodeB JobtrackerC DatanodeD secondaryNameNodeE tasktracker关于SecondaryNameNode哪项是正确的(C)?A 它是NameNode的热备。B 它对内存没有要求。C 它的目的是帮助NameNode合并编辑日志,减少NameNode启动时间。D SecondaryNameNode应与NameNode部署到原创 2020-12-24 15:35:47 · 1214 阅读 · 0 评论 -
2020.12.23课堂笔记(Spark Streaming中的transform)
Spark Streaming中的transform算子作用:业务需求需要更改数据结构时可以使用transform完成转化工作示例:从Kafka中读取数据,经过transform操作转换之后,打印添加依赖:<dependency> <groupId>org.apache.kafka</groupId> <artifactId>kafka_2.11</artifactId> <version>2.0.0</ver原创 2020-12-24 15:12:51 · 307 阅读 · 0 评论 -
2020.12.23课堂笔记(Spark Streaming中的Window操作)
窗口时间 windowDuration:当前窗口要统计多长时间的数据,是批量时间的整数倍滑动时间 slideDuration:要多长时间更新一次结果,是批量时间的整数倍批量处理时间 batchDuration:多长时间创建一个批次,与实际业务无关,只与数据量有关,数据量大则可以设置短一些,数据量小则设置长一些,但必须小于其他两个时间。原创 2020-12-23 20:04:12 · 346 阅读 · 0 评论 -
hive知识点总结
HiveHive基本概念什么是HiveHive:由FaceBook开源,用于解决海量结构化日志的数据统计Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能本质:将HQL转换成MapReduce程序Hive处理的数据存储在HDFSHive分析数据底层的实现是MapReduce执行程序运行在YARN上Hive的优缺点优点操作接口采用类SQL语法,提供快速开发的能力(简单、容易上手)避免了去写MapReduce原创 2020-10-14 08:38:22 · 289 阅读 · 0 评论 -
hadoop知识点总结
HadoopHadoop框架Hadoop是什么Hadoop是一个由Apache基金会所开发的分布式系统基础架构主要解决,海量数据的存储和海量数据的分析计算问题广义上来说,HADOOP通常是指一个更广泛的概念——HADOOP生态圈Hadoop发行版本Apache、Cloudera、Hortonworks(需要明确自己使用的版本)Apache版本最原始(最基础)的版本,对于入门学习最好Cloudera在大型互联网企业中用的较多Hortonworks文档较好Hadoop优势高可靠原创 2020-10-14 08:35:02 · 13304 阅读 · 4 评论 -
2020.12.20课堂笔记(《HBase进阶》学习指导)
《HBase 进阶》学习指导一、Phoenix 集成 HBase详见 2020.9.25课堂笔记(phoenix:We put the SQL back in NoSQL)二、HBase 与 Hive 的集成该部分需要理解 HBase 和 Hive 的不同点,以及 Hive 与 HBase 集成的适用场景。2.1 HBase 与 Hive 的对比1.Hive(1)数据仓库Hive 的本质其实就相当于将 HDFS 中已经存储的文件在 Mysql 中做了一个映射关系,以方便使用 HQL 去管理原创 2020-12-21 20:11:11 · 216 阅读 · 0 评论 -
2020.12.18课堂笔记(SparkStreamingDemo)
添加maven依赖:<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artifactId> <version>2.4.5</version></dependency><dependency> <groupId>org.apache.spark</group原创 2020-12-19 16:30:00 · 268 阅读 · 1 评论 -
2020.12.17课堂笔记(《HBase 基础》学习指导)
《HBase 基础》学习指导一、HBase 安装参考:《HBase 分布式环境搭建》要求会搭建分布式 HBase 环境。二、HBase 架构原理1.1 HBase 架构HBase 架构是比较复杂的,也是比较难理解的部分。HBase 也是 Master/slaves 架构,从前面安装环境应该能看出,HBase 分布式环境安装成功后,是有一个 HMaster,多个 HResgionServer 进程。HBase 架构如图所示:从上图中能看出 HBase 是由 Client、ZooKeeper、H原创 2020-12-17 14:56:04 · 276 阅读 · 0 评论 -
2020.12.17课堂笔记(HBase分布式环境搭建)
HBase分布式环境搭建一、HBase分布式环境安装1.1 Zookeeper正常部署启动首先保证Zookeeper集群的正常部署,并启动:[root@hadoop102 zookeeper]$ $ZK_HOME/bin/zkServer.sh start[root@hadoop103 zookeeper]$ $ZK_HOME/bin/zkServer.sh start[root@hadoop104 zookeeper]$ $ZK_HOME/bin/zkServer.sh start1.2原创 2020-12-17 13:59:45 · 453 阅读 · 0 评论 -
2020.12.15课堂笔记(Kafka Streams的代码实现)
package nj.zb.kb09.kafka;import org.apache.kafka.common.serialization.Serdes;import org.apache.kafka.streams.KafkaStreams;import org.apache.kafka.streams.StreamsBuilder;import org.apache.kafka.streams.StreamsConfig;import org.apache.kafka.streams.Top原创 2020-12-16 14:10:00 · 231 阅读 · 0 评论 -
2020.12.14课堂笔记(Zeppelin安装及Hive解释器配置)
Zeppelin安装及使用一、下载安装包进入官网进行下载。http://zeppelin.apache.org/download.html我这里选用的版本如下:zeppelin-0.8.1-bin-all.tgz下载第一个安装包即可。二、上传并解压上传到Linux并进行解压。tar -zvxf zeppelin-0.8.1-bin-all.tgz -C /opt/install进入目录cd /opt/install/zeppelin-0.8.1-bin-all/其实zeppeli原创 2020-12-14 09:58:18 · 188 阅读 · 0 评论 -
2020.12.10课堂笔记(hive DQL查询语句)
hive 查询CTE和嵌套查询CTE语法示例with hive join指对多表进行联合查询emp emp_id,dept_id,emp_namedept dept_id,dept_name类似MySQL的join,但hive仅支持等值连接(不可以使用小于、大于符号来关联)员工表:1,2,zhangsan2,3,lisi3,4,wangwu部门表:1,jishu2,ceshi3,renshi内连接:inner join外连接:outer joinright j原创 2020-12-10 16:04:09 · 159 阅读 · 0 评论 -
2020.12.09课堂笔记(Kafka Streams API)
参考资料:Kafka 1.0 文档Kafka Streams APIKafka Streams核心思想Kafka Streams 是一个用于处理和分析存储在 Kafka 系统中的数据的客户端库。 它建立在重要的流处理概念上,如恰当地区分事件时间(event time)和处理时间(processing time),支持窗口操作(window),exactly-once 处理语义以及简单高效的应用程序状态管理。Kafka Streams 的入门门槛很低。我们可以在单节点环境上快速实现一个小规模的验证性原创 2020-12-09 17:06:30 · 216 阅读 · 0 评论 -
2020.12.08课堂笔记(从flume读取数据连接到Kafka中)
在Kafka中创建topic:举例:kafka-topics.sh --create --zookeeper 192.168.237.100:2181 --topic kb09demo2 --partitions 5 --replication-factor 1要求创建下列topic:usersuser_friends_rawuser_friendseventsevent_attendees_rawevent_attendeestraintestkafka-topics.sh --原创 2020-12-08 19:15:00 · 206 阅读 · 0 评论 -
2020.12.07课堂笔记(使用IDEA创建Kafka生产者和消费者)
1.使用IDEA创建Kafka生产者和消费者 2.将Kafka的数据写入HBase原创 2020-12-07 17:40:50 · 727 阅读 · 0 评论 -
2020.12.03课堂笔记(kafka数据可靠性深度解读)
参考博客:https://blog.csdn.net/u013256816/article/details/71091774建议跳转阅读,这里只做知识点整理:Kafka架构图:1.Kafka的角色:Broker、Producer、Consumer名称解释Broker消息中间件处理节点,一个Kafka节点就是一个broker,一个或者多个Broker可以组成一个Kafka集群Producer消息生产者,向Broker发送消息的客户端Consumer消息消费者,从原创 2020-12-03 22:11:48 · 198 阅读 · 0 评论 -
2020.12.02课堂笔记(Kafka的原理及环境配置)
消息中间件:主要的作用是削峰和解耦:举例:菜鸟驿站,快递员把快递发到菜鸟驿站,通过手机接收验证码去取件。饭店炒菜的大厨,端盘子的,洗盘子的。都会把盘子集中放在一个地方,需要的人自由去取,而不是端着盘子在那里等着对方忙完。消息中间件起到的是同样的作用,在双十一高峰期的时候不会把数据从前端直接写到数据库中,而是存放在消息中间件里,数据库需要的时候自由去取,有推送和订阅两种形式。有哪些常见的消息中间件:RabbitMQ、RocketMQ、ActiveMQ、Kafka有什么异同:什么是Kafka原创 2020-12-02 20:12:18 · 417 阅读 · 0 评论 -
2020.12.01课堂笔记(flume拦截器以及自定义拦截器)
flume的拦截器interceptors分为自带的拦截器以及用户自定义的拦截器。用户自定义拦截器的时候可以划分为3个部分:1.按照需求编写Java代码2.打成jar包,上传到flume的lib目录下3.编写agent的组件,执行使用flume自带的拦截器regex_filter 正则过滤拦截器:编写agent组件:// agent组件分为三个部分: sources,channels,sinksusers.sources=userSourceusers.channels=userChann原创 2020-12-01 19:32:48 · 262 阅读 · 0 评论 -
2020.11.30课堂笔记(flume的配置及使用)
解压flume压缩包,并重命名:[root@hadoop100 opt]# tar xf flume-ng-1.6.0-cdh5.14.0.tar.gz[root@hadoop100 opt]# mv apache-flume-1.6.0-cdh5.14.0-bin/ flume160修改配置文件flume-env.sh:cd /opt/flume160/conf/cp flume-env.sh.template flume-env.sh修改以下两处配置:export JAVA_HOME原创 2020-11-30 20:10:09 · 668 阅读 · 0 评论 -
2020.11.26课堂笔记(sparkGraphx算法之pregel)
参考博客:https://blog.csdn.net/hanweileilei/article/details/89764466大佬博客写的很详细,不用继续看这篇了,随便写一些记录一下。Pregel框架:Pregel是一种面向图算法的分布式编程框架,采用迭代的计算模型:在每一轮,每个顶点处理上一轮收到的消息,并发出消息给其它顶点,并更新自身状态和拓扑结构(出、入边)等。有意思的是,Pregel 这个名字的来源,是纪念著名的欧拉七桥问题,这七座桥就位于Pregel这条河上。典型的Pregel计算流程是原创 2020-11-26 17:29:56 · 906 阅读 · 0 评论 -
2020.11.26课堂笔记(sparkGraphx算法之connectedComponents)
首先准备数据源:links.csv1,2,friend1,3,sister2,4,brother3,2,boss4,5,client1,9,friend6,7,cousin7,9,coworker8,9,father10,11,colleague10,12,colleague11,12,colleaguepeople.csv4,Dave,256,Faith,218,Harvey,472,Bob,181,Alice,203,Charlie,307,George,34原创 2020-11-26 15:25:52 · 669 阅读 · 0 评论 -
2020.11.25课堂笔记(PageRank算法原理剖析及Spark实现)
1. 什么是PageRankPageRank对网页排名的算法,曾是Google发家致富的法宝。PageRank算法计算每一个网页的PageRank值,然后根据这个值的大小对网页的重要性进行排序。2. 简单PageRank算法首先,将Web做如下抽象:将每个网页抽象成一个节点;如果一个页面page a.html有链接直接链向page b.html,则存在一条有向边从page a.html到page b.html(多个相同链接不重复计算边)。因此,整个Web被抽象为一张有向图。现在假设世界上只有四原创 2020-11-25 19:45:23 · 432 阅读 · 0 评论 -
2020.11.20(记录一次gcc升级和cmake安装)
centOS7 升级GCC版本:wget -c https://mirrors.tuna.tsinghua.edu.cn/gnu/gcc/gcc-9.3.0/gcc-9.3.0.tar.gztar -zxvf gcc-9.3.0.tar.gzcd gcc-9.3.0wget -c https://mirrors.tuna.tsinghua.edu.cn/gnu/gmp/gmp-6.1.0.tar.bz2wget -c https://mirrors.tuna.tsinghua.edu.cn/gnu原创 2020-11-25 12:23:16 · 839 阅读 · 1 评论 -
2020.11.23课堂笔记(基于Spark GraphX的图形数据分析)
理解图(Graph)的基本概念与术语图是由顶点集合(vertex)及顶点间的关系集合(边edge)组成的一种网状数据结构图的术语顶点(Vertex)边(Edge)通常表示为二元组:Graph=(V,E)集合V={v1,v2,v3}集合E={(v1,v2),(v1,v3),(v2,v3)}有向图G=(V,E)V={A,B,C,D,E}E={<A,B>,<B,C>,<B,D>,<C,E>,<D,A>,<E,D>}无原创 2020-11-23 15:18:21 · 303 阅读 · 0 评论 -
2020.11.19课堂笔记(日志文件完成数据清洗)
有一个日志文件,要完成数据清洗:1593136280858|{"cm":{"ln":"-55.0","sv":"V2.9.6","os":"8.0.4","g":"C6816QZ0@gmail.com","mid":"489","nw":"3G","l":"es","vc":"4","hw":"640*960","ar":"MX","uid":"489","t":"1593123253541","la":"5.2","md":"sumsung-18","vn":"1.3.4","ba":"Sumsung"原创 2020-11-19 17:32:32 · 170 阅读 · 0 评论