自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

埋葬青春

我想前面是海洋

  • 博客(29)
  • 收藏
  • 关注

原创 Java 类集框架

类集框架Collection 是整个类集之中单值保存的最大父接口。 public interface Collection<E> extends Iterable <E>Collection接口里面定义的常用操作方法:public boolean add(E e) 向结合中添加元素public boolean addAll(Collection <? extends ...

2018-07-01 21:47:58 185

原创 多线程

多线程的实现class MyThread extends Thread{ private String name;//定义类中的属性 public MyThread(String name ){//定义构造方法 this.name=name; } @override public void run(){//覆写run()方法,作为线程的主操作方法 for(int x = 0;x < 20...

2018-06-30 15:45:56 178

原创 Spark的资源调优

主要就是通过调整spark应用的相关参数来达到控制spark的cpu、内存,executor的数量等方式来优化 http://spark.apache.org/docs/1.6.1/configuration.html http://spark.apache.org/docs/1.6.1/running-on-yarn.htmlspark-submit脚本的资源参数--master MASTER_...

2018-06-03 20:26:23 805

原创 Spark应用的结构

Driver + Executor Driver:运行SparkContext上下文的地方(jvm),SparkContext进行初始化的地方(jvm),进行RDD初始化的地方(jvm),Task运行资源申请和RDD job/Task调度的调度 一般我们认为main方法的位置就是driver(main方法是SparkContext的构建) 一个应用只有一个driver Executor: 具体...

2018-06-03 20:24:31 236

原创 TopN

result.sortBy(t => t._2).take(10)cmd演示: val list = List(("zhangsan",20),("lisi",9),("wangwu",33)) list.sortBy(t => t._2).takeRight(1) //表示从右边开始取几条对RDD进行操作: result.sortBy(t => t._2,ascending=f...

2018-06-03 20:21:32 1183

原创 Spark wordCount案例

1、构建一个RDD ##path指定文件所在的位置,第一个默认的路径是HDFS的路径,而且可以省略hdfs:主机名:8020/,第二个如果是linux文件的路径,那么需要写file:// + 文件的绝对路径 val textFile = sc.textFile("README.md") org.apache.hadoop.mapred.InvalidInputException:  Input p...

2018-06-03 20:12:17 533

原创 HDFS 上传数据大致流程

2018-05-31 22:24:32 1120

原创 myeclipse 导入maven项目pom.xml文件报错解决方法

问题:在导入项目过程加载pom.xml文件时错误信息:No marketplace entries found to handle maven-compiler-plugin:3.3:compile in Eclipse.  Please see Help for more information.No marketplace entries found to handle maven-compi...

2018-05-29 18:42:35 10965 1

原创 Windows 上启动不了Nginx

问题描述:在windows上启动nginx时候,任务管理器上没有nginx.exe *32 的映像名   主句访问访问不到解决:查看错误日志  logs  2018/05/28 15:57:25 [emerg] 7364#6548: bind() to 0.0.0.0:80 failed (10013: An attempt was made to access a socket in a way...

2018-05-28 16:29:44 926

原创 windows 上搭建Nginx 服务器 IIS7 解决方法

让我 一万个怀疑人生 iis7  。今天在做Nginx负载均衡的问题,于是自己在windows安装Nginx-1.12.2。安装过程不必多说,直接解压nginx-1.12.2.zip。打开解压的文件,双击.exe文件 黑框一闪而过 (这都是正常)接下来问题来了:任务管理器里的进程竟然没有 nginx的相关进程 。。  ,真tm是见鬼了访问Nginx:localhost:80 还以为是乱码问题,几个...

2018-05-26 18:46:14 8235 4

原创 Hbase基本命令

-》hbase的shell命令    -》启动shell:bin/hbase shell   -》如果shell要删除命令,需要按住ctrl+backsapce键   -》help帮助信息     Group name: general  Commands: status, table_help, version, whoami  Group name: ddl  Commands: alter,...

2018-03-03 19:11:10 1281

转载 DataNode没 启动

点击打开链接  右键链接新窗口打开

2018-03-03 14:33:11 163

原创 hbase与RDBMS的区别

1.hbase是无模式的,没有固定的列,只定义列簇;RDBMS有模式的,描述整个表的结构2.hbase适合大表(宽表),水平可伸缩;RDBMS适合小表,难于扩展3.hbase没有事务;RDBMS支持事务管理4.hbase数据不是规范化的;RDBMS是规范化的...

2018-03-02 21:46:41 1358

原创 hbase与hadoop的区别

1.hdfs分布式文件系统,存储大量数据;hbase是数据库,存储大量数据,构建与hdfs之上2.hdfs不支持快速单条数据的查找;hbase支持大表的快速查询3.hdfs提供高延迟批处理;hbase提供单行数据低延迟随机访问4.hdfs只提供数据按序访问;hbase内部是使用hash表提供的随机访问...

2018-03-02 21:44:58 8830 1

原创 hive的优化

-》大表拆分成小表 -》包含临时表、分区表、外部表-》sql语句: -》优化sql:复杂的sql-》子查询+join -》简化,拆分成多个简单的语句 join、filter:先过滤再join-》设置map和reduce的个数 reduce数目:可以参数进行设置 -》hive: set mapreduce.job.reduces=<number> -》MR:job.setNumRe...

2018-03-02 13:00:04 151

原创 hive 自定义UDF实现时间字段格式转换

1.编写类继承UDFpackage beifengly.Hive20;import java.text.ParseException;import java.text.SimpleDateFormat;import java.util.Date;import java.util.Locale;import org.apache.commons.lang.StringUtils;import org...

2018-03-01 15:53:20 1905

原创 sqoop 数据导入

一.准备要导入的数据:1.进入数据库  mysql  -uroot  -p123456(-u后面是sqoop的mysql的用户名,-p后面是密码)2.创建数据库: create  database  数据库名 (sqooptest) 3.使用数据库:use  sqooptest4.创建表:create table  hdfs(id  int primary  key  not  nullname ...

2018-02-26 18:37:35 263

原创 Hive 自定义UDF

Hive 自定义UDF函数1.新建一个Maven工程2.定义一个类,类名看心情,自己定  src/main/java  自己的包下建3.在pom.xml中添加依赖hive的maven依赖:放在   标签中   org.apache.hadoop   hadoop-client   2.7.3    org.apache.h

2018-02-02 15:55:48 221

原创 hive 的数据导入和导出

hive 的数据导入和导出【导入】1.load  data [local] -->本地,将数据文件copy到hdfs对应的目录,适合大部分场景使用 load data local inpath ' /opt/datas/emp.tx'  into table emp; load  data  local  inpath '数据文件所在的目录(local_path)' into

2018-02-01 21:56:29 3364 1

原创 Hive 使用mysql 数据库乱码问题

1.错误情况 当 :hive  >create table test(> sno int comment ‘编号’, >sname String comment ‘姓名’>)row format delimited fields terminated by '\t';>desc test;注释出现乱码2.解决方案:01.修改my.cnf文件 命令:vi /e

2018-01-30 21:21:43 539

原创 Hive 安装mysql 和相关配置

Hive 安装mysql 和相关配置 1、用bin/hive同时打开多个客户端会报错java.sql.SQLException: Another instance of Derby may have already booted the database /opt/modules/apache/hive-1.2.1/metastore_db.derby数据库默认只能开启一个客户

2018-01-27 11:38:14 286

原创 Hive安装和使用

Hive安装和使用一.安装:1.上传hive解压到到自己的指定目录   /opt/modules/apache     tar  -zxf apach-hive-1.2.1-bin.tar.gz  -C  /opt/modules/apache2.重新给hive命名简单   mv  apache -hive -1.2.1-bin  hive -1.2.1(可选)3.cd hive-

2018-01-26 16:19:26 1030

原创 Hive 体系结构

Hive 体系结构一.Hive在Hadoop生态体系中的结构二.Hive体系结构1.client  :      命令行    -常用      JDBC 2.metastore元数据:存储在数据库中                                 默认的数据库derby                           

2018-01-26 15:39:49 309

原创 ETL介绍

ETL介绍1.数据来源:            用户行为数据            业务数据            数据采集(爬虫)            日志文件2.处理数据抽取:把不同的数据源数据抓取过来,存到某个地方数据清洗:过滤那些不符合要求的数据或者修正数据之后再进行抽取不完整的数据:比如数据里一些应该有的信息缺失,需要补全后再写入数据仓库错误的数

2018-01-21 15:09:18 394

原创 搭建完全分布式准备环境

hadoop搭建完全分布式准备环境一.      基本环境1.   工具:CentOS(6.5 ,版本自己选择)          Hadoop(2.5.0,版本自己选择)          jdk1.70—67(尽量不要用过低或者最新版本,可能会有不兼容)          虚拟机3台或者4台(下面的步骤3台虚拟机都要检查并设置)2.   配置ip和DNS点击小电

2018-01-17 16:35:32 303

原创 sudo权限配置

sudo权限配置     出现这样的情况说明没有给sudo配置权限1.   操作对象是系统命令2.   命令:#visudo管理员(root)身份执行3.   进行权限配置:命令 #vi  /etc/sudoers  或者#visudo  进入文件修改进去后文件内容有点多,G  移动到最后行,从最后往上翻看,找到如下地方复制”%where     ALL

2018-01-16 22:35:30 903

原创 虚拟机克隆 Vmware

虚拟机克隆 Vmware一.克隆1.   在Linux终端  int 0 关机  或者在桌面选择系统-----》关机2.   以第一台为标准  点击右键 -----》管理-----》克隆再下一步完成克隆,需要等待一段时间。二.修改配置1.修改ip   点击虚拟机小电脑---右键---》编辑连接----》选中第一台为标准的如Au

2018-01-16 17:29:49 272

原创 Linux基础命令

4.命令:cd             ---》作用:移动到任何指定的目录             ----》可以跟上cd..表示移动返回到上一级的目录5.查看命令:ls           #ls  -l   ==ll    显示详细信息           #ls  -a显示所有文件包括隐藏文件(在Linux中前缀为.的就表示隐藏文件)               #l

2017-12-31 17:17:55 147

原创 Linux-虚拟机ip修改及映射配置

1.hostname的用法1)hostname  查看主机名 2)hostname+主机名(主机名要有意义比如beifeng.com)hostname  beifeng.com   创建临时主机名,虚拟机关闭临时主机名消失3)永久生效设置主机名的方式:vi  /etc/sysconfig/network 2.网络映射 格式 地址+主机名Linux和Windows中都需要

2017-12-30 22:51:41 5117

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除