LAllenKing-CSDN博客

原创 Java基础语法3

方法概念假设有一个程序，程序在运行过程中要不断的获取一些值中的最大值。获取最大值的代码假设需要10行，在每次获取最值的地方都需要重复地编写这10行代码，这样程序会变得很臃肿，重复的代码会很多。为了解决代码重复编写的问题，可以将获取最值的代码提取出来放在一个大括号中，并为这段代码起个名字，这样在每次获取最值的地方通过这个名字来调用获取最值的代码就可以了。上述过程中，所提取出来的打吗可以被看作是程...

2019-11-27 20:07:15 472

原创如何在IDEA中编写Spark的WordCount程序

1：spark shell仅在测试和验证我们的程序时使用的较多，在生产环境中，通常会在IDE中编制程序，然后打成jar包，然后提交到集群，最常用的是创建一个Maven项目，利用Maven来管理jar包的依赖。2：配置Maven的pom.xml：<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://mave...

2019-09-20 16:50:48 1195

原创如何在hadoop完全分布式中安装spark和scala

1.1 机器准备准备两台以上Linux服务器，安装好JDK1.81.2 下载Spark安装包上传解压安装包上传spark-2.1.1-bin-hadoop2.7.tgz安装包到Linux上解压安装包到指定位置tar -zxvf spark-2.1.1-bin-hadoop2.7.tgz 1.3 配置SparkSpark的部署模式有Local、Local-Cluster、Stan...

2019-09-18 22:00:17 1219

原创 Scala深度学习2

day02scala中的抽象类abstract class Father(newName:String) { protected var name:String=newName //抽象方法 def eat(food:String):Unit //普通方法 def run():Unit={println(this.name+"is running...") }...

2019-09-18 21:38:18 379

原创 Scala深度学习1

参数在scala中，变量类型统一用val表示，常量则用var表示，如下程序中，就会输出num1到4的变量类型object BasicDaraType{ def main(args: Array[String]): Unit = {val num1 = 100 //Intval num2 = 100L //Longval num3 = 12.5F //Floatval num4 = ...

2019-09-18 13:25:31 428

原创 Scala初体验

首先我们要在windows系统中安装Scala，我下的scala-2.13.0版本，将其解压完后，配置环境变量。先配置SCALA_HOME，将你的scala安装路径填入值中然后配置path，将安装路径下的bin目录地址填入值中最后配置ClassPath，将下面代码填入值中.;%SCALA_HOME%\bin;环境变量配置完成后，菜单运行cmd测试配置成功与否如图所示，出现上图结...

2019-09-17 21:26:14 136

原创 MapReduce解决乘用车辆和商用车辆的销售数据分析

首先还是看下我们的需求然后拿到我们的数据可以看到我们的数据里面还有很多空值,是还没清洗的脏数据,一会我们处理的时候需要将其处理掉.一.统计车辆不同用途的数量分布package hadoop.MapReduce.car.Use;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;...

2019-09-06 09:16:31 6606 9

原创在JDEA上实现MapReaduce复杂案例

我们来实现一下复杂的案例求出两两之间的好友：A:B,C,D,F,E,OB:A,C,E,KC:F,A,D,ID:A,E,F,LE:B,C,D,M,LF:A,B,C,D,E,O,MG:A,C,D,E,FH:A,C,D,E,OI:A,OJ:B,OK:A,C,DL:D,E,FM:E,F,GO:A,H,I,J /* 第一阶段的map函数主要完成以下任务 1.遍历原始文件中...

2019-09-03 21:28:51 329

原创在JDEA上实现MapReaduce简单案例

执行的一个简单案例:用MapReduce实现一下需求1、搜狗日志摘取“年月日时分”2011 12 30 00 00 052、统计搜索过“爱奇艺”关键字的UID和搜索记录uid keyword3、统计上午7-9点之间，搜索过“赶集网”的用户(uid)uid4.统计12月30号8点20-8点22分,所有用户id和浏览信息1、搜狗日志摘取“年月日时分”Mapper端package ...

2019-09-03 21:21:42 589

原创周末小作业

一、填空hive填空：用户接口主要有三个：CLI，Client 和 WUI。其中最常用的是__CLI_____，它启动的时候，会同时启动一个hive副本。Client是Hive的客户端，用户连接至Hive Server。在启动_Client__模式的时候，需要指出Hive Server所在节点，并且在该节点启动Hive Server。___WUI_____是通过浏览器访问Hive。Hive...

2019-09-01 17:26:38 372

原创 Hive 优化

企业级调优一、 Fetch抓取Fetch抓取是指，Hive中对某些情况的查询可以不必使用MapReduce计算。例如：SELECT * FROM employees;在这种情况下，Hive可以简单地读取employee对应的存储目录下的文件，然后输出查询结果到控制台。在hive-default.xml.template文件中hive.fetch.task.conversion默认是mor...

2019-09-01 17:24:49 257

原创高可用Flum-NG配置案例

在完成单点的Flume NG搭建后，下面我们搭建一个高可用的Flume NG集群，架构图如下所示：角色分配Flume的Agent和Collector分布如下表所示：　图中所示，Agent1，Agent2，Agent3数据分别流入到Collector1和Collector2，Flume NG本身提供了Failover机制，可以自动切换和恢复。在上图中，有3个产生日志服务器分布在不同的机房...

2019-08-29 17:59:05 194

转载 hadoop重新格式化HDFS

重新格式化hdfs系统的方法：1、打开hdfs-site.xml我们打开Hadoop的hdfs-site.xml，基本配置如下所示：<property> <name>dfs.name.dir</name> <value>/usr/local/hadoop/hdfs/name</value></property&g...

2019-08-29 16:06:44 6326

原创 Hive案例学生成绩表综合案例

首先给出各个表的数据•表1 学生表 <学号,姓名,性别,年龄,系> - <Sno,Sname,Ssex,Sage,Sdepartment>95001,李勇,男,20,CS95002,刘晨,女,19,IS95003,王敏,女,22,MA95004,张立,男,19,IS95005,刘刚,男,18,MA95006,孙庆,男,23,CS•表2 课程表<课程ID...

2019-08-26 21:23:56 3206

原创关于hive的练习归纳

理解什么是映射1、首先呢，在指定的目录下创建一个hive文件夹作为我们存储数据文件的一个地方。mkdir hivedata2、编辑一个文本文件内容：vim 1.txt1,张三,212,李四,203,蔡英文,543、将文件上传到hdfs上现在hdfs上也创建一个hivedata来存放数据文件(–在hdfs的根目录下创建hivedata文件夹)hdfs dfs -mkdir /...

2019-08-26 21:20:53 528

原创关于hadoop模块的总复习

大数据是什么？指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据是做什么的？主要解决，海量数据的存储和海量数据的分析计算问题。大数据的应用场景？人工智能、物流仓储、零售、旅游等等大数据的特点？大量、多样、快速、有价值Hadoop是什么？Hadoop是一个由Ap...

2019-08-26 17:22:22 264

原创 Mapreduce思想与案例

首先,我们了解一下mapreduce的核心思想,我们把它总结为天龙八部.map端：第一步：按照Fileinputformat格式去读取文件，形成k v对的形式进行输出；key指代是行偏移量，value指代的是一行里面的文本内容第二步：自定义map逻辑，按照相应的分隔符去拆分文本内容，形成新的k v对，进行输出。shuffle阶段：第三步：分区相同key的value合并到同一个组，形...

2019-08-26 17:05:51 601

原创在hadoop集群中搭建hive组件

Hive部署前提：在安装Hive之前，要求先：- 安装JDK- 安装Hadoop- 安装MySQL一、安装1. 下载hive最新的稳定版本的包，并解压缩到用户主目录下： $ cd$ tar -xzvf apache-hive-2.1.0-bin.tar.gz改名：$ mv apache-hive-2.1.0-bin hive-2.1.0设置环境变量：$ sud...

2019-08-26 16:15:54 638

原创使用IDEA远程访问VM虚拟机Zookeeper

一.首先,让我们进入VM启动我们的完全分布式集群然后让我们在每一台机器上进入Zookeeper安装目录,输入bin/zkServer.sh start启动Zookeeper,然后我们可以用bin/zkServer.sh status命令查看启动状态.二.启动之后,我们将虚拟机当前版本的Zookeeper安装包放到主机上,然后将其解压打开IDEA,创建新的java项目,然后选择文件-&gt...

2019-08-26 15:00:47 2455

转载 Hbase的完全分布式安装

节点分布情况（这里把HMaster和NameNode搭建在一个节点，但是实际开发中，别这样做）前提条件（每个节点）（1）Java环境变量（2）时间同步（3）主从免秘钥（4）启动hadoop配置hbase-site.xml <property> <name>hbase.rootdir</name> ...

2019-08-25 14:21:07 319

原创 zookeeper 完全分布式安装

3.1 安装zookeeper注：以下所有安装默认是在master上执行！解压并移动软件包（在所有节点执行）将zookeeper-3.4.6.tar.gz 解压缩，tar -zxvf zookeeper-3.4.6.tar.gz修改配置文件（在hadoop001执行）修改Zookeeper配置文件/home/lan/zookeeper-3.4.6/conf/zoo_sample.cf...

2019-08-25 14:14:33 215

原创 CentOS7 yum方式安装MySQL5.7

转载至博客：https://www.cnblogs.com/bigbrotherer/p/7241845.html在CentOS中默认安装有MariaDB，这个是MySQL的分支，但为了需要，还是要在系统中安装MySQL，而且安装完成之后可以直接覆盖掉MariaDB。1 下载并安装MySQL官方的 Yum Repository[root@localhost ~]# wget -i -c ht...

2019-08-25 14:08:19 167

原创解决Hadoop启动后一直处于安全模式的问题

问题：HDFS启动后一直处于安全状态解决过程：1.查看hadoop namenode的启动日志STARTUP_MSG: Starting NameNodeSTARTUP_MSG: host = hadoop001/192.168.137.141STARTUP_MSG: args = []STARTUP_MSG: version = 2.6.0-cdh5.7.0STARTU...

2019-08-25 14:04:36 9000

转载 centos7安装mysql5.6.40

首先检查是否安装过mysql 如果有卸载[root@localhost ~]# rpm -qa |grep mysql然后再检查是否有 mariadb 版数据库[root@localhost ~]# rpm -qa|grep mariadb这里可以采用两种方式卸载1、 [root@localhost ~]# rpm -e mysql-community-release-el6-5.n...

2019-08-25 14:00:13 219

原创 Hbase的伪分布式安装

Hbase安装模式介绍单机模式1> Hbase不使用HDFS,仅使用本地文件系统2> ZooKeeper与Hbase运行在同一个JVM中分布式模式– 伪分布式模式1> 所有进程运行在同一个节点上,不同进程运行在不同的JVM当中2> 比较适合实验测试– 完全分布式模式1> 进程运行在多个服务器集群中2> 分布式依赖于HDFS系统，因此布署Hba...

2019-08-24 21:00:16 203

原创 zookeeper 伪分布式安装

1 下载zookeeper安装包下载地址 http://apache.fayea.com/zookeeper/我下载的是zookeeper-3.4.6.tar.gz2 解压缩将zookeeper-3.4.6.tar.gz复制到/usr/local文件夹下运行命令 tar -zxvf zookeeper-3.4.6.tar.gz解压后的文件夹为 zookeeper-3.4.6 ，为了方便...

2019-08-24 20:54:28 292

原创在虚拟机CentOs7中配置hadoop2.7.5伪分布式

因完全分布式的集群安装hive后hive出现了点问题导致无法用hive进行select查询,导致学习进度卡住,所以我决定去搭建一个伪分布式的hadoop集群,一下就是安装过程.搭建伪分布式集群准备条件第一部分安装前部署1.查看虚拟机版本2.查看IP地址3.修改主机名为hadoop4.修改 /etc/hosts5.关闭防火墙6.关闭SELINUX7.安装yum源并安装基础包8....

2019-08-24 20:43:04 1451

原创正确的配置虚拟机静态网络

之前按照网上的说法配置VM的静态网络,但是一直有个问题,就是在VM的虚拟网络编辑器里如果将DHCP按钮关闭,里面的虚拟机就无法连接网络了,如图:但是将按钮打开,虚拟机又时而会改变一下IP地址,搞得很心烦后来经过一番学习发现正确配置虚拟网络静态应如下步骤:我的电脑的网络连接是由wifi连接,在此就以wifi连接示例首先在你windows主机端右键wifi图标在弹出的窗口中选择打开"网络...

2019-08-24 17:32:18 1963 1

原创在虚拟机CentOs7中配置hadoop3.1.2完全分布式

准备工作准备虚拟计算机软件-----VMware Workstation Pro安装准备好的CentOs7镜像文件,选择安装带图形界面的版本,并配置好网络,保证能ping通www.baidu.com.配置环境安装vimyum install vim安装jdk#先列出可以安装的jdk1.8版本yum list java-1.8*#选择版本安装jdk:注意：这里要选择devel...

2019-08-18 20:10:24 824 1

原创 java基础语法2

eclipse安装官方首页https://www.eclipse.org/downloads/安装包下载https://www.eclipse.org/downloads/packages版本语言包安装运行窗口显示主要设置键盘录入概述我们目前在写程序的时候,数据值都是固定的,但是实际开发中,数据值肯定是变化的,所以我们需要把数据改进为键盘录入的,以提高...

2019-08-07 15:21:21 284

原创 Java基础语法

一.关键字含义:被java语言赋予特殊含义的单词.特点:组成关键字的字母全部小写.注意事项:1.goto和const作为保留字存在,目前并不使用(但在JDK的新版本中可能会提升为关键字)2.notepad++这样高级的高级记事本,针对关键字会有特殊的颜色标记,非常直观.二.标识符含义:就是给类,接口,方法,变量等起名字时使用的字符序列.组成规则:英文大小写字母,数字字符,$和_...

2019-08-02 18:19:18 216

原创 java入门

一.Java Development Kit (Java 开发工具包)当前最新版本:JDK 12(1.12)以前的版本:JDK 11(1.11)JDK 10(1.10)JDK 9(1.9)JDK 8(1.8) elephant 大象JDK 7(1.7) dolphin 海豚JDK 6(1.6) mustang 野马JDK 5(1.5) tiger 老虎二.java...

2019-07-30 17:06:47 150

Allen的博客