树立flag-CSDN博客

原创 Java 类集框架

类集框架Collection 是整个类集之中单值保存的最大父接口。 public interface Collection<E> extends Iterable <E>Collection接口里面定义的常用操作方法：public boolean add(E e) 向结合中添加元素public boolean addAll(Collection <? extends ...

2018-07-01 21:47:58 225

原创多线程

多线程的实现class MyThread extends Thread{ private String name;//定义类中的属性 public MyThread(String name ){//定义构造方法 this.name=name; } @override public void run(){//覆写run()方法,作为线程的主操作方法 for(int x = 0;x < 20...

2018-06-30 15:45:56 221

主要就是通过调整spark应用的相关参数来达到控制spark的cpu、内存，executor的数量等方式来优化 http://spark.apache.org/docs/1.6.1/configuration.html http://spark.apache.org/docs/1.6.1/running-on-yarn.htmlspark-submit脚本的资源参数--master MASTER_...

2018-06-03 20:26:23 866

原创 Spark应用的结构

Driver + Executor Driver：运行SparkContext上下文的地方（jvm），SparkContext进行初始化的地方（jvm），进行RDD初始化的地方（jvm），Task运行资源申请和RDD job/Task调度的调度一般我们认为main方法的位置就是driver（main方法是SparkContext的构建）一个应用只有一个driver Executor：具体...

2018-06-03 20:24:31 282

原创 TopN

result.sortBy(t => t._2).take(10)cmd演示： val list = List(("zhangsan",20),("lisi",9),("wangwu",33)) list.sortBy(t => t._2).takeRight(1) //表示从右边开始取几条对RDD进行操作： result.sortBy(t => t._2,ascending=f...

2018-06-03 20:21:32 1216

原创 Spark wordCount案例

1、构建一个RDD ##path指定文件所在的位置，第一个默认的路径是HDFS的路径，而且可以省略hdfs:主机名:8020/,第二个如果是linux文件的路径，那么需要写file:// + 文件的绝对路径 val textFile = sc.textFile("README.md") org.apache.hadoop.mapred.InvalidInputException: Input p...

2018-06-03 20:12:17 592

原创 HDFS 上传数据大致流程

2018-05-31 22:24:32 1156

原创 myeclipse 导入maven项目pom.xml文件报错解决方法

问题：在导入项目过程加载pom.xml文件时错误信息：No marketplace entries found to handle maven-compiler-plugin:3.3:compile in Eclipse. Please see Help for more information.No marketplace entries found to handle maven-compi...

2018-05-29 18:42:35 11064 1

原创 Windows 上启动不了Nginx

问题描述：在windows上启动nginx时候，任务管理器上没有nginx.exe *32 的映像名主句访问访问不到解决：查看错误日志 logs 2018/05/28 15:57:25 [emerg] 7364#6548: bind() to 0.0.0.0:80 failed (10013: An attempt was made to access a socket in a way...

2018-05-28 16:29:44 1032

原创 windows 上搭建Nginx 服务器 IIS7 解决方法

让我一万个怀疑人生 iis7 。今天在做Nginx负载均衡的问题，于是自己在windows安装Nginx-1.12.2。安装过程不必多说,直接解压nginx-1.12.2.zip。打开解压的文件，双击.exe文件黑框一闪而过（这都是正常）接下来问题来了：任务管理器里的进程竟然没有 nginx的相关进程。。，真tm是见鬼了访问Nginx：localhost：80 还以为是乱码问题，几个...

2018-05-26 18:46:14 8358 4

原创 Hbase基本命令

-》hbase的shell命令 -》启动shell：bin/hbase shell -》如果shell要删除命令，需要按住ctrl+backsapce键 -》help帮助信息 Group name: general Commands: status, table_help, version, whoami Group name: ddl Commands: alter,...

2018-03-03 19:11:10 1323

转载 DataNode没启动

点击打开链接右键链接新窗口打开

2018-03-03 14:33:11 198

原创 hbase与RDBMS的区别

1.hbase是无模式的，没有固定的列，只定义列簇；RDBMS有模式的，描述整个表的结构2.hbase适合大表（宽表），水平可伸缩；RDBMS适合小表，难于扩展3.hbase没有事务；RDBMS支持事务管理4.hbase数据不是规范化的；RDBMS是规范化的...

2018-03-02 21:46:41 1523

原创 hbase与hadoop的区别

1.hdfs分布式文件系统，存储大量数据；hbase是数据库，存储大量数据，构建与hdfs之上2.hdfs不支持快速单条数据的查找；hbase支持大表的快速查询3.hdfs提供高延迟批处理；hbase提供单行数据低延迟随机访问4.hdfs只提供数据按序访问；hbase内部是使用hash表提供的随机访问...

2018-03-02 21:44:58 8889 1

原创 hive的优化

-》大表拆分成小表 -》包含临时表、分区表、外部表-》sql语句： -》优化sql：复杂的sql-》子查询+join -》简化，拆分成多个简单的语句 join、filter：先过滤再join-》设置map和reduce的个数 reduce数目：可以参数进行设置 -》hive： set mapreduce.job.reduces=<number> -》MR：job.setNumRe...

2018-03-02 13:00:04 183

原创 hive 自定义UDF实现时间字段格式转换

1.编写类继承UDFpackage beifengly.Hive20;import java.text.ParseException;import java.text.SimpleDateFormat;import java.util.Date;import java.util.Locale;import org.apache.commons.lang.StringUtils;import org...

2018-03-01 15:53:20 1970

原创 sqoop 数据导入

一.准备要导入的数据：1.进入数据库 mysql -uroot -p123456(-u后面是sqoop的mysql的用户名，-p后面是密码)2.创建数据库： create database 数据库名（sqooptest） 3.使用数据库：use sqooptest4.创建表：create table hdfs（id int primary key not nullname ...

2018-02-26 18:37:35 309

原创 Hive 自定义UDF

Hive 自定义UDF函数1.新建一个Maven工程2.定义一个类，类名看心情，自己定 src/main/java 自己的包下建3.在pom.xml中添加依赖hive的maven依赖：放在标签中 org.apache.hadoop hadoop-client 2.7.3 org.apache.h

2018-02-02 15:55:48 256

原创 hive 的数据导入和导出

hive 的数据导入和导出【导入】1.load data [local] -->本地，将数据文件copy到hdfs对应的目录，适合大部分场景使用 load data local inpath ' /opt/datas/emp.tx' into table emp; load data local inpath '数据文件所在的目录（local_path)' into

2018-02-01 21:56:29 3417 1

原创 Hive 使用mysql 数据库乱码问题

1.错误情况当：hive >create table test（> sno int comment ‘编号’， >sname String comment ‘姓名’>）row format delimited fields terminated by '\t';>desc test;注释出现乱码2.解决方案：01.修改my.cnf文件命令：vi /e

2018-01-30 21:21:43 584

原创 Hive 安装mysql 和相关配置

Hive 安装mysql 和相关配置 1、用bin/hive同时打开多个客户端会报错java.sql.SQLException: Another instance of Derby may have already booted the database /opt/modules/apache/hive-1.2.1/metastore_db.derby数据库默认只能开启一个客户

2018-01-27 11:38:14 329

原创 Hive安装和使用

Hive安装和使用一.安装：1.上传hive解压到到自己的指定目录 /opt/modules/apache tar -zxf apach-hive-1.2.1-bin.tar.gz -C /opt/modules/apache2.重新给hive命名简单 mv apache -hive -1.2.1-bin hive -1.2.1（可选）3.cd hive-

2018-01-26 16:19:26 1073

原创 Hive 体系结构

Hive 体系结构一.Hive在Hadoop生态体系中的结构二.Hive体系结构1.client ：命令行 -常用 JDBC 2.metastore元数据：存储在数据库中默认的数据库derby

2018-01-26 15:39:49 361

原创 ETL介绍

ETL介绍1.数据来源：用户行为数据业务数据数据采集（爬虫）日志文件2.处理数据抽取：把不同的数据源数据抓取过来，存到某个地方数据清洗：过滤那些不符合要求的数据或者修正数据之后再进行抽取不完整的数据：比如数据里一些应该有的信息缺失，需要补全后再写入数据仓库错误的数

2018-01-21 15:09:18 433

原创搭建完全分布式准备环境

hadoop搭建完全分布式准备环境一．基本环境1. 工具：CentOS(6.5 ，版本自己选择) Hadoop（2.5.0，版本自己选择） jdk1.70—67（尽量不要用过低或者最新版本，可能会有不兼容）虚拟机3台或者4台（下面的步骤3台虚拟机都要检查并设置）2. 配置ip和DNS点击小电

2018-01-17 16:35:32 338

原创 sudo权限配置

sudo权限配置出现这样的情况说明没有给sudo配置权限1. 操作对象是系统命令2. 命令：#visudo管理员（root）身份执行3. 进行权限配置：命令 #vi /etc/sudoers 或者#visudo 进入文件修改进去后文件内容有点多，G 移动到最后行，从最后往上翻看，找到如下地方复制”%where ALL

2018-01-16 22:35:30 957

原创虚拟机克隆 Vmware

虚拟机克隆 Vmware一．克隆1. 在Linux终端 int 0 关机或者在桌面选择系统-----》关机2. 以第一台为标准点击右键 -----》管理-----》克隆再下一步完成克隆，需要等待一段时间。二．修改配置1.修改ip 点击虚拟机小电脑---右键---》编辑连接----》选中第一台为标准的如Au

2018-01-16 17:29:49 322

原创 Linux基础命令

4.命令：cd ---》作用：移动到任何指定的目录 ----》可以跟上cd..表示移动返回到上一级的目录5.查看命令：ls #ls -l ==ll 显示详细信息 #ls -a显示所有文件包括隐藏文件（在Linux中前缀为.的就表示隐藏文件） #l

2017-12-31 17:17:55 186

原创 Linux-虚拟机ip修改及映射配置

1.hostname的用法1）hostname 查看主机名 2）hostname+主机名（主机名要有意义比如beifeng.com）hostname beifeng.com 创建临时主机名，虚拟机关闭临时主机名消失3)永久生效设置主机名的方式：vi /etc/sysconfig/network 2.网络映射格式地址+主机名Linux和Windows中都需要

2017-12-30 22:51:41 5211

埋葬青春