自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(21)
  • 资源 (1)
  • 收藏
  • 关注

原创 spark开发

spark开发1、核心开发:离线批处理 / 延迟性的交互式数据处理?2、SQL查询:底层都是RDD和计算操作?3、实时计算:底层都是RDD和计算操作?

2015-10-31 20:46:35 663

原创 RDD基本特性

RDD基本特性1、什么叫RDD?2、RDD有怎么样的特性?1、RDD是Spark提供的核心抽象,全称为Resillient Distributed Dataset,即弹性分布式数据集。2、RDD在抽象上来说是一种元素集合,包含了数据。它是被分区的,分为多个分区,每个分区分布在集群中的不同节点上,从而让RDD中的数据可以被并行操作。(分布式数据集)3、RDD通常通过Hadoop上

2015-10-31 20:44:10 3938

原创 spark基本工作原理

spark基本工作原理spark基本原理是怎么样?包括哪些内容?1、分布式2、主要基于内存(一部分读取磁盘)3、迭代式计算下面用图来表示:

2015-10-31 20:28:22 2360

原创 hive select查询语句

hive  select查询语句现在不想整理了!!!!!!!!!有空再整理了!!!SELECT [ALL | DISTINCT] select_expr, select_expr, ...FROM table_reference[WHERE where_condition][GROUP BY col_list][LIMIT number]eg:selec

2015-10-20 22:02:14 6304

原创 把hive中的数据导入到hdfs或者本地文件的方式

把hive中的数据导入到hdfs或者本地文件的方式1、通过insert...directory方式导出数据到本地文件insert overwrite local directory '/opt/datas/hive/exp_hive'select * from emp ;insert overwrite local directory '/opt/datas/hive/exp_

2015-10-20 21:44:08 8696

原创 加载数据到hive中的方式

加载数据到hive中的方式官网:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DMLLOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 .

2015-10-20 00:32:50 16923 2

原创 hive sql详细学习

hive sql详细学习1、准备数据emp.txt7369 SMITH CLERK 7902 1980-12-17 800.00 207499 ALLEN SALESMAN 7698 1981-2-20 1600.00 300.00 307521 WARD SALESMAN 7698 1981-2-22 1250.00 500.00 307566 JONES MANAGER 7

2015-10-19 22:08:09 2902

原创 hive 创建表的三种方式

hive 创建表的三种方式官网地址:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDLCREATE [TEMPORARY] [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.]table_name -- (Note: TEMPORARY available

2015-10-18 23:58:43 59104

原创 hive jdbc

hive  jdbc hive jdbc 官网:https://cwiki.apache.org/confluence/display/Hive/HiveClient#HiveClient-JDBC

2015-10-18 22:50:52 825

原创 hive cli 常用操作(-e,-f.-i)

hive cli 常用操作(-e,-f.-i)官网:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Cli1、bin/hive -helpbin/hive -help15/10/18 06:34:46 WARN conf.HiveConf: DEPRECATED: hive.metastore.ds.re

2015-10-18 22:05:15 8497

原创 hive常用属性设置

hive常用属性设置1、Hive数据仓库位置配置 (配置文件为/conf/hive-site.xml )hive表中的数据,存储在hdfs上的位置默认值:/user/hive/warehousehive.metastore.warehouse.dir/user/hive/warehouse2、Hive运行日志信息位置 默认在:/tmp/root/hive.log

2015-10-18 21:05:33 4979

原创 hive基本操作

hive基本操作hive 官网为:https://cwiki.apache.org/confluence/display/Hive/GettingStarted#GettingStarted-SQLOperations1、展示数据库hive> show databases ;OKdefaulthelloTime taken: 0.243 seconds, Fetched: 2

2015-10-18 20:23:48 696

原创 HIVE入门安装及配置

HIVE安装及配置1、mysql安装需要软件为:MySQL-client-5.5.28-1.linux2.6.x86_64.rpm(client端)MySQL-server-5.5.28-1.linux2.6.x86_64.rpm       #server端mysql-connector-java-5.1.10.jar (mysql驱动包)2、安装mysq

2015-10-18 15:22:18 475

原创 RDD Action 显示

RDD Action 显示val nums  = sc.parallelize(List(1,2,3,6,4,7,5))nums.collect   //会引起客户端内存溢出//返回前k 个元素nums.take(2)//返回排序后的前k 个元素nums.takeOrdered(2)//返回第一个元素nums.first//返回随

2015-10-17 22:26:56 788

原创 spark RDD key/value关联操作

RDD key/value关联操作val left = sc.parallelize(List(("spark",1),("hadoop",1),("storm",1)))val left = sc.parallelize(List(("scala",1),("hadoop",1),("spark",1)))关联2个RDD val joinOut = left join r

2015-10-17 21:48:56 2279

原创 Spark RDD 笛卡尔积

Spark RDD 笛卡尔积val left = sc.parallelize(List(1,2,3))val right = sc.parallelize(List(3,4,5,6))val out = left union right //返回所有元素新的RDD //{1,2,3,3,3,4,5,6}val insterstions = left intersection

2015-10-17 21:31:22 10443 1

原创 Spark控制ReduceTask数量

Spark控制ReduceTask数量所有key/value RDD操作都有一个可选参数,表示reduceTask的并行度1、通过查看http://192.168.80.20:4040/jobs/  val words = sc.parallelize(List(("spark",1),("hadoop",1),("hadoop",1),("hadoop",1)))words:

2015-10-17 20:56:52 4998 1

原创 Spark RDD transformation操作

Spark RDD transformation操作1、创建RDDval nums =sc.parallelize(List(1,2,3))nums: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[2] at parallelize at :212、将RDD转换为新的RDD 结果为(1,4,9)val squa

2015-10-17 20:17:24 544

原创 Spark standalone模式安装

Spark standalone模式安装1、下载软件(http://www.apache.org/dyn/closer.lua/spark/spark-1.4.1/spark-1.4.1-bin-hadoop2.4.tgz)2、准备机器我这里5台机器    192.168.80.20(cloud1)    192.168.80.21(cloud2)   192.168.80

2015-10-17 19:35:30 643

原创 spark入门

spark入门官网学习资料:http://spark.apache.org/docs/latest/quick-start.html1、val textFile = sc.textFile("F:\\spark-1.4.1-bin-hadoop2.4\\spark-1.4.1-bin-hadoop2.4\\README.md")2、textFile.count()3、textFil

2015-10-15 00:20:59 663

原创 strom 官方DRPC

storm 官方DRPCpackage drpc;import backtype.storm.Config;import backtype.storm.LocalCluster;import backtype.storm.LocalDRPC;import backtype.storm.StormSubmitter;import backtype.storm.drpc.LinearD

2015-10-04 21:04:58 899

java必备 编译eclipse 学习必备

java必备 编译eclipse 学习必备

2014-08-04

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除