zhikanjiani-CSDN博客

原创 Hadoop数据开发笔试题（一）

一、业务场景：考试记录编码转名称a)、要求1：答案选项表只能关联一次b)、要求2：答案顺序不能错位，没有选择项，置空表一：考试记录表考试人试卷名称题目编号答案编码张三exam-a0101ACD表二：答案选项表试卷名称题号编号题目名称答案名称exam-a0101您最近5年的职业A教师exam-a0101您最近5...

2019-09-18 14:44:42 1041 1

原创 kubectl的基础命令使用

二进制安装的k8s集群，kubectl命令的基本使用

2022-11-26 00:15:27 4767

原创 K8s基础之-Pod

k8s入门

2022-11-21 23:51:48 1479

原创零基础班第十五课 - Hive DDL详解

一、hive回顾1.1基于Hadoop之上的数据仓库，数据实在hdfs，元数据是在MySQL这些关系型数据库中。hive部署过程中出现的坑：1、找不到Hadoop-HOME，需要自行配置环境变量。echo $HADOOP_HOME1.2、cat hive-ste.xml打印出来需要核对参数1.3、权限问题，现在配在Hadoop001这台机器，比如MySQL远程访问这台机器要刷新权限1...

2020-05-27 15:56:26 3818

原创 LNMP搭建wordpress

使用LNMP搭建wordpress1、MySQL5.7.11部署2、linux下Nginx编译安装2.1、CentOS7下配置Nginx的开机自启动2.2、CentOS6下配置Nginx的开机自启动3、PHP安装3.1、CentOS7下配置PHP的开机自启动3.2、CentOS6下配置PHP的开机自启动开始修改配置文件1、MySQL5.7.11部署MySQL5.7部署参考...

2020-03-09 12:26:35 582

原创程序员应该有个高逼格的blog

一、Nodejs部署二、git部署三、hexo部署启动四、hexo配置、解决中文乱码五、github初始化六、blog推送部署到github七、更换主题和头像八、最终选择主题一、Nodejs部署1、需要在本地安装node.js自行去到官网下载好后部署在D盘，验证是否安装成功：打开CMD窗口，如下表示已经成功安装node.jsC:\Users\Administrator...

2019-11-22 17:31:49 565

原创零基础班第三课 - Linux常用操作命令（二）

1、history命令2、用户和用户组3、管道符一、History命令：显示当前用户所有历史操作记录命令：1、！682意思就是执行第682行的命令场景：我们在生产上执行了一些操作想要删除历史记录：cat .bash_historyecho "" > .bash_history 清空历史命令生产上如何排查这种问题？使用root用户进入此目录：/home/XXX...

2019-11-13 17:32:30 242

原创大数据实战第四十二课 - Docker入门及实战

一、Docker入门1.1 Docker的安装1.2 Docker的卸载容器课程所需环境CentOS7.X，各位有需要购买云服务器的可以通过我的链接：点击进行购买，享9折优惠！阿里云9折优惠券，点击领取一、Docker入门举例：Window上面装了一个虚拟机，VM1、VM2、VM3都是linux系统；CentOS7.X系统上可以装很多个docker，docker1、docker...

2019-11-13 15:28:31 1387

原创 MySQL分组排序

需求一：哪些部门的薪水最高两位的工种有哪些？1、分析：每个部门、每个工种的薪水和：1、可以建立一个视图：create view salasselectdeptno,job,sum(sal+ifnull(comm,0)) as salfrom emp group by deptno,job;2、select * from sal；视图中查询数据视图不存储数据，生产上会把...

2019-10-28 11:37:58 341

原创大数据实战第三十六课 - 生产预警平台01

第一章：项目背景1.1 早期运维-ELK1.2 生产预警平台的架构1.3 Flume二次开发1.4 生产Flume源码导入IDEA第一章：项目背景项目名称：生产预警平台背景：外资车载导航、硬件、传感器、GPS等等1、服务挂了，不能及时通知2、服务不能达到秒级通知，前两年基本都是分钟级别，5min左右3、对于一些即将出现的问题可以提前预知4、有效的扩展到实时计算、日...

2019-10-24 20:58:00 297

原创大数据实战第二十八课 - CDH03

第一章：CDH添加kafka服务1.1 在集群中add service第二章：Spark2部署第一章：CDH添加Kafka服务添加kafka服务的时候会跳出来一句话：Before adding this service， ensure that either the kafka parcel is activated or the kafka package is installe...

2019-10-23 00:06:44 492 2

原创大数据实战第二十七课 - flume02

第一章：上次课回顾第一章：上次课回顾

2019-10-14 11:32:18 179

原创 wordpress5.2.4完成个人博客建设

第一步：购买一台阿里云、腾讯云服务器第二步：注册一个域名第三步：安装必要环境和WordPress系统环境：CentOS7.2搭建LAMP环境，Linux，Apache，MySQL，PHP的缩写，是WordPress博客系统的基础运行环境第一步安装Apache服务：1、安装Apacheyum install -y httpd2、安装完成后启动Apache服务service h...

2019-10-08 13:26:09 450

原创若泽数据公开课-Docker系列（主讲PK哥）

一、为什么要学习Docker二、Docker是什么？三、Docker解决了什么问题？四、Docker核心概念五、Centos部署Docker六、Image详解一、为什么要学习Docker解决了以下痛点：1、持续集成（速度快）2、运维（易部署）3、资源国内大的互联网公司都使用Docker技术，从业者必须要掌握的一个技能。Spark也都是跑在K8s上面，无论开发、测试、运维。...

2019-09-30 14:45:38 356

原创大数据实战第四十课 - HBase01

一、HBase学习大纲二、HBase的定位2.1 HBase的特性2.2 HBase对比关系型数据库2.3 单节点HBase的安装2.4 HBase shell各位有兴趣购买云服务器的可以通过我的链接：点击进行购买，有优惠哦！阿里云服务器领券，新客专享一、HBase学习大纲1、设计HBase的初衷，HBase的特性，对比MySQL、Solar关系型数据库2、HBas...

2019-09-29 22:13:14 237

原创大数据实战第四十一课 - ES02

第一章：上次课回顾第二章：使用API的方式操作ES第一章：上次课回顾大数据实战第四十课 - ES01https://blog.csdn.net/zhikanjiani/article/details/101151475回顾：1、单台机器部署多个节点，一定要通过参数去指定，不使用-E path.data第二个节点是起不来的；我第一次犯错是因为cluster写了两个，应该是一个clus...

2019-09-24 20:37:59 356

原创大数据实战第四十课 - ES01

第一章：初识Elastic Stack第二章：使用Elastic<a href="#id_2.1 target="_self">2.1 版本选择2.2 ES的前言2.3 ES核心概念第一章：初识Elastic官网：https://www.elastic.co/cn/它是有中文版本的，根据本地的local来进行寻址的。我们先来看一下版本：我们使用的版本是6.6.6版本...

2019-09-23 14:54:43 1019

原创零基础班第二课-Linux命令01

一、SecureCRT或Xshell连接虚拟机或云主机二、bios开启虚拟化三、Linux命令一四、Linux命令二五、Linux命令三一、SecureCRT或Xshell连接虚拟机或云主机自行百度SecureCRT或者Xshell的下载与安装SecureCRT连接本地虚拟机二、Bios开启虚拟化Windows上部署虚拟机需要Bios虚拟化自行百度解决即可三...

2019-09-22 11:08:53 294

原创 Hive之窗口函数

一、相关函数说明：1、cover（）：指定分析函数工作的数据窗口大小，这个数据窗口大小可能会随着行的变而变化2、current row：当前行n PRECEDING：往前n行数据n FOLLOWING：往后n行数据3、UNBOUNDED：起点，UNBOUNDED PROCEDING 表示从前面的起点，UNBOUNDED FOLLOWING：表示到后面的终点4、LAG(col,n)：...

2019-09-20 21:32:05 407

原创 Hive中的常用函数

Hive中collect相关的函数有collect_list和collect_set.它们都是将分组中的某列转换为一个数组返回，不同的是collect_list不重而collect去重。做简单的实验加深理解，创建一张实验用表，存放用户每天点播视频的记录：create table t_visit_viedo ( username string, video_name string) pa...

2019-09-18 14:34:09 3645 1

原创使用数据库客户端工具Dbeaver连接Hive和MySQL

1、关于下载安装以及Dbeaver连接MySQL、请看楼主的这篇博客：MySQL实操（一）此篇博客讲的是使用Dbeaver连接Hive：第一步：第二步：点击测试链接会跳出加载驱动的弹窗第三步：1、使用maven下载的方式添加hive-jdbc及hadoop-common也可以尝试在idea中下载好后，以添加文件夹的方式添加进去；这两个缺一不可，否则会报错：org.ap...

2019-09-17 14:23:45 7949

原创使用Sqoop1.4.6从MySQL导数据到Hive失败

SQOOP 把MySQL中的数据导入到Hive中：语句如下：sqoop import \--connect jdbc:mysql://localhost:3306/ruoze_g6 \--username root --password 960210 \--delete-target-dir \--table city_info \--hive-import \--hive-tab...

2019-09-16 21:29:48 463

原创零基础班第十八课 - Hive项目实战

第一章：上次课回顾第二章：离线处理过程中的大数据处理2.1 数据准备第一章：上次课回顾零基础班第十七课 - hive进阶：https://blog.csdn.net/zhikanjiani/article/details/89416079回顾：1、上次课主要讲了建表语句中更为复杂的函数：array_type、map_type、struct_type；2、除了直接启动Hive以外...

2019-09-16 17:30:48 1906

原创 Sqoop-1.4.6-cdh5.7.0.tar.gz安装和使用

Sqoop安装1 下载下载地址http://archive.cloudera.com/cdh5/cdh/5/环境sqoop-1.4.6-cdh5.7.0.tar.gz版本2 上传到linux上，并解压[hadoop@hadoop000 software]$ tar -xzvf sqoop-1.4.6-cdh5.7.0.tar.gz –C~/app修改用户和用户组3 Sqoo...

2019-09-15 23:28:50 318

原创 Scala语法扩充

一、Scala函数闭包二、Scala正则表达式一、Scala函数闭包函数闭包：我们介绍的函数都只引用到传入的参数，假如我们定义入如下的函数：（x:Int）=> x + more这里我们引入一个自由变量more。它不是所定义的函数的参数，而这个变量定义在函数的外面，比如：var more = 1那么我们有如下的结果：scala> var more ...

2019-09-13 18:00:47 206

原创 LeetCode - 二分查找

一、什么是二分查找一、什么是二分查找概念：二分查找是计算机科学中最基本、最有用的算法之一。它描述了在有序集合中搜索特定值的过程。二分查找中使用的术语：目标Target --> 你要找的值索引 Index --> 你要查找的当前位置左、右指示符Left，Right --> 我们用来维持查找空间的指标中间指示符Mid --> 我们用来应用条件来确定我们应该...

2019-09-12 23:10:41 169

原创单节点下NameNode进程无法启动

背景：学习了若泽大数据，近期又在重新回顾一遍：**问题：**使用start-dfs.sh启动后，jps查看并没有NameNode进程。解决：第一步：定位到日志文件既然NameNode进程没看见启动，我们就要去查找原因，进入到记录NameNode、DataNode、SecondaryNameNode这三个进程的文件中，查看NameNode的近200行日志。记录三进程的日志目录在启...

2019-09-10 23:44:18 967

原创若泽数据公开课2019-09-10（flume进阶）

上次公开课内容回顾：单Agent：Flume三个核心组件还有三个六大核心事物三大核心组件自定义开发第一个：数据丢失第二个：数据重复Flume经典面试题：在开发过程中有没有遇到过数据重复和数据丢失的问题？多Agent的配置：对于Flume来讲其实就是Agent的技术选项：没有对与错，只有合不合适。第一个例子：对于2个Source来讲，Channel --> ...

2019-09-10 21:41:24 151

原创大数据实战第三十三课 - Spark离线项目01

第一章：项目概述第二章：项目架构2.1 技术选型2.2 架构选型会遇到的问题第三章：采集部分第一章：项目概述概述：处理的是APP的数据，处理一些用户行为（登录、登出），通过app的服务打点记录下来的数据用于商业分析。第二章：项目架构APP的服务器肯定是多台的，webserver产生很多日志，通过对用户行为进行打点，日志会落到约定的目录下，eg: /data/2019-...

2019-09-10 15:14:38 1097

转载生产预警平台项目之Flume-1.7.0源码编译导入IDEA

下载flume-ng-1.6.0-cdh5.7.0-src.tar.gz下载地址:http://archive.cloudera.com/cdh5/cdh/5/flume-ng-1.6.0-cdh5.7.0-src.tar.gzwin安装好maven-3.3.9解压flume-ng-1.6.0-cdh5.7.0-src.tar.gz并进入解压路径编译：mvn clean compile报...

2019-09-09 22:54:37 516

原创大数据实战三十二课 - ZK

第一章：上次课回顾第二章：初识Zookeeper2.1 Zookeeper安装2.2 ZK数据模型第一章：上次课回顾https://blog.csdn.net/zhikanjiani/article/details/100547003kafka和spark Streaming的整合，需要导Kafka Utils包，使用package的方式打包；一般情况下集群下有一两台机器提...

2019-09-08 09:33:43 268

原创若泽数据第二阶段面试题

1、Spark的运行模式？Spark on yarn的工作流程，client和cluster的区别（driver的位置区别）不管是Spark on yarn还是mapreduce都要知道工作流程。2、Spark所用到的版本？Spark内存管理，画出来，然后给一个案例：executor要申请300M内存的过程。spark版本原来1.6，现在是2.X，尽量说2.1和2.2，executor...

2019-09-06 21:30:10 627

原创大数据实战三十一课 - Spark Streaming03

第一章：上次课回顾第一二章： Kafka和Spark Streaming的整合第一章：上次课回顾https://blog.csdn.net/zhikanjiani/article/details/100412389两大重点：不管写到MySQL、HBase、Redis这几种数据库中，都需要记住是哪三步走。Executor和Driver，在Driver端有的话会无法被序列化；每一...

2019-09-05 22:39:40 413

原创大数据实战三十课-Spark Streaming02

一、上次课回顾一、上次课回顾https://blog.csdn.net/zhikanjiani/article/details/100191911我们要明白SparkStreaming是对core的一个扩展，Spark来讲，是以批处理为主，用微批处理来处理流数据Flink：以流处理为主，用流处理来处理批数据数据是从外部接进来：注意有无Receiver（local[1]和local[2...

2019-09-03 22:16:35 264

原创大数据实战二十九课-Spark Streaming01

一、上次课回顾第一章：初识Spark Streaming第二章：Spark Streaming写WC一、上次课回顾主要是Flume01中的课程回顾：主要是source、sink的选择，生产上只有两个sink：Sink --> HDFS（离线）、Sink --> Kafka（实时）注意：提交Spark作业，配置的时候提交中带" \ "符可能会出问题TailDir只要遇到一...

2019-09-02 16:42:59 379

原创 python解析真实网页

第一章：上次课回顾第二章：解析真实世界中的网页-2.1 开始编程解析Trippadvisor第一章：上次课回顾https://blog.csdn.net/zhikanjiani/article/details/100148698第二章：解析真实世界中的网页技术：Requests库 + BeautifulSoup库来爬取Trippadvisor第1步：服务器与本地的交换控制常识：...

2019-09-01 16:34:55 6222

原创若泽数据公开课-JVM01

第一章：为什么要讲JVM第二章：Windows机器上测试2.1 Servers模式和Client模式2.2 JVM三种类型参数2.3 在IDEA中测试boolean类型2.4 在IDEA中测试非boolean类型2.5 jinfo命令帮助2.6 PrintFlags系列参数2.7 Xmx Xms参数第三章：JVM运行时的数据区第一章：为什么要讲JVM面试相关肯定跑不了：考...

2019-08-31 17:19:35 152 1

原创 python解析本地网页中的元素

本次学习使用到的文件：链接：https://pan.baidu.com/s/1Kp0yZ-zHFJ0WmM1UZCRMOA提取码：uhev需求：学会筛选处所有评分大于3的文章展现标题和对应的分类第一步：使用BeautifulSoup解析网页Soup = BeautifulSoup(html,‘lxml’)如何理解：soup --> 汤，html --> 汤料，‘lxml...

2019-08-30 15:09:40 1907

原创 Python-认识网页的构成

所需软件链接：链接：https://pan.baidu.com/s/11ysCh3XSrND42jFGfrIdMg提取码：7710复制这段内容后打开百度网盘手机App，操作更方便哦HTML：结构CSS：样式JavaScript：功能解析网页的话JavaScript解析的比较少Div标签：网页中一块固定区域：<div> <p>Wow!</p>...

2019-08-29 23:03:59 157

原创大数据实战第二十六课 - flume01

第一章：上次课回顾第二章：初识Flume2.1 flume产生背景2.2 学习Flume2.3 Flume三大核心组件第三章：下载安装Flume第一章：上次课回顾回顾：至此Spark Core和Spark SQL已经全部上完了；还剩下Spark Streaming，Machine Learning是视频直播课。总结：对于Spark Core来说：RDD的五大特性务必掌握，...

2019-08-29 15:53:34 318

空空如也

空空如也