- 博客(21)
- 资源 (1)
- 收藏
- 关注
原创 spark开发
spark开发1、核心开发:离线批处理 / 延迟性的交互式数据处理?2、SQL查询:底层都是RDD和计算操作?3、实时计算:底层都是RDD和计算操作?
2015-10-31 20:46:35 663
原创 RDD基本特性
RDD基本特性1、什么叫RDD?2、RDD有怎么样的特性?1、RDD是Spark提供的核心抽象,全称为Resillient Distributed Dataset,即弹性分布式数据集。2、RDD在抽象上来说是一种元素集合,包含了数据。它是被分区的,分为多个分区,每个分区分布在集群中的不同节点上,从而让RDD中的数据可以被并行操作。(分布式数据集)3、RDD通常通过Hadoop上
2015-10-31 20:44:10 3938
原创 spark基本工作原理
spark基本工作原理spark基本原理是怎么样?包括哪些内容?1、分布式2、主要基于内存(一部分读取磁盘)3、迭代式计算下面用图来表示:
2015-10-31 20:28:22 2360
原创 hive select查询语句
hive select查询语句现在不想整理了!!!!!!!!!有空再整理了!!!SELECT [ALL | DISTINCT] select_expr, select_expr, ...FROM table_reference[WHERE where_condition][GROUP BY col_list][LIMIT number]eg:selec
2015-10-20 22:02:14 6304
原创 把hive中的数据导入到hdfs或者本地文件的方式
把hive中的数据导入到hdfs或者本地文件的方式1、通过insert...directory方式导出数据到本地文件insert overwrite local directory '/opt/datas/hive/exp_hive'select * from emp ;insert overwrite local directory '/opt/datas/hive/exp_
2015-10-20 21:44:08 8698
原创 加载数据到hive中的方式
加载数据到hive中的方式官网:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DMLLOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 .
2015-10-20 00:32:50 16923 2
原创 hive sql详细学习
hive sql详细学习1、准备数据emp.txt7369 SMITH CLERK 7902 1980-12-17 800.00 207499 ALLEN SALESMAN 7698 1981-2-20 1600.00 300.00 307521 WARD SALESMAN 7698 1981-2-22 1250.00 500.00 307566 JONES MANAGER 7
2015-10-19 22:08:09 2902
原创 hive 创建表的三种方式
hive 创建表的三种方式官网地址:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDLCREATE [TEMPORARY] [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.]table_name -- (Note: TEMPORARY available
2015-10-18 23:58:43 59105
原创 hive jdbc
hive jdbc hive jdbc 官网:https://cwiki.apache.org/confluence/display/Hive/HiveClient#HiveClient-JDBC
2015-10-18 22:50:52 825
原创 hive cli 常用操作(-e,-f.-i)
hive cli 常用操作(-e,-f.-i)官网:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Cli1、bin/hive -helpbin/hive -help15/10/18 06:34:46 WARN conf.HiveConf: DEPRECATED: hive.metastore.ds.re
2015-10-18 22:05:15 8497
原创 hive常用属性设置
hive常用属性设置1、Hive数据仓库位置配置 (配置文件为/conf/hive-site.xml )hive表中的数据,存储在hdfs上的位置默认值:/user/hive/warehousehive.metastore.warehouse.dir/user/hive/warehouse2、Hive运行日志信息位置 默认在:/tmp/root/hive.log
2015-10-18 21:05:33 4982
原创 hive基本操作
hive基本操作hive 官网为:https://cwiki.apache.org/confluence/display/Hive/GettingStarted#GettingStarted-SQLOperations1、展示数据库hive> show databases ;OKdefaulthelloTime taken: 0.243 seconds, Fetched: 2
2015-10-18 20:23:48 696
原创 HIVE入门安装及配置
HIVE安装及配置1、mysql安装需要软件为:MySQL-client-5.5.28-1.linux2.6.x86_64.rpm(client端)MySQL-server-5.5.28-1.linux2.6.x86_64.rpm #server端mysql-connector-java-5.1.10.jar (mysql驱动包)2、安装mysq
2015-10-18 15:22:18 475
原创 RDD Action 显示
RDD Action 显示val nums = sc.parallelize(List(1,2,3,6,4,7,5))nums.collect //会引起客户端内存溢出//返回前k 个元素nums.take(2)//返回排序后的前k 个元素nums.takeOrdered(2)//返回第一个元素nums.first//返回随
2015-10-17 22:26:56 788
原创 spark RDD key/value关联操作
RDD key/value关联操作val left = sc.parallelize(List(("spark",1),("hadoop",1),("storm",1)))val left = sc.parallelize(List(("scala",1),("hadoop",1),("spark",1)))关联2个RDD val joinOut = left join r
2015-10-17 21:48:56 2279
原创 Spark RDD 笛卡尔积
Spark RDD 笛卡尔积val left = sc.parallelize(List(1,2,3))val right = sc.parallelize(List(3,4,5,6))val out = left union right //返回所有元素新的RDD //{1,2,3,3,3,4,5,6}val insterstions = left intersection
2015-10-17 21:31:22 10443 1
原创 Spark控制ReduceTask数量
Spark控制ReduceTask数量所有key/value RDD操作都有一个可选参数,表示reduceTask的并行度1、通过查看http://192.168.80.20:4040/jobs/ val words = sc.parallelize(List(("spark",1),("hadoop",1),("hadoop",1),("hadoop",1)))words:
2015-10-17 20:56:52 4998 1
原创 Spark RDD transformation操作
Spark RDD transformation操作1、创建RDDval nums =sc.parallelize(List(1,2,3))nums: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[2] at parallelize at :212、将RDD转换为新的RDD 结果为(1,4,9)val squa
2015-10-17 20:17:24 544
原创 Spark standalone模式安装
Spark standalone模式安装1、下载软件(http://www.apache.org/dyn/closer.lua/spark/spark-1.4.1/spark-1.4.1-bin-hadoop2.4.tgz)2、准备机器我这里5台机器 192.168.80.20(cloud1) 192.168.80.21(cloud2) 192.168.80
2015-10-17 19:35:30 643
原创 spark入门
spark入门官网学习资料:http://spark.apache.org/docs/latest/quick-start.html1、val textFile = sc.textFile("F:\\spark-1.4.1-bin-hadoop2.4\\spark-1.4.1-bin-hadoop2.4\\README.md")2、textFile.count()3、textFil
2015-10-15 00:20:59 663
原创 strom 官方DRPC
storm 官方DRPCpackage drpc;import backtype.storm.Config;import backtype.storm.LocalCluster;import backtype.storm.LocalDRPC;import backtype.storm.StormSubmitter;import backtype.storm.drpc.LinearD
2015-10-04 21:04:58 899
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人