2015年10月_大数据的未来

原创 spark开发

spark开发1、核心开发：离线批处理 / 延迟性的交互式数据处理？2、SQL查询：底层都是RDD和计算操作？3、实时计算：底层都是RDD和计算操作？

2015-10-31 20:46:35 663

原创 RDD基本特性

RDD基本特性1、什么叫RDD?2、RDD有怎么样的特性？1、RDD是Spark提供的核心抽象，全称为Resillient Distributed Dataset，即弹性分布式数据集。2、RDD在抽象上来说是一种元素集合，包含了数据。它是被分区的，分为多个分区，每个分区分布在集群中的不同节点上，从而让RDD中的数据可以被并行操作。（分布式数据集）3、RDD通常通过Hadoop上

2015-10-31 20:44:10 3938

原创 spark基本工作原理

spark基本工作原理spark基本原理是怎么样？包括哪些内容？1、分布式2、主要基于内存(一部分读取磁盘)3、迭代式计算下面用图来表示：

2015-10-31 20:28:22 2360

原创 hive select查询语句

hive select查询语句现在不想整理了！！！！！！！！！有空再整理了！！！SELECT [ALL | DISTINCT] select_expr, select_expr, ...FROM table_reference[WHERE where_condition][GROUP BY col_list][LIMIT number]eg:selec

2015-10-20 22:02:14 6304

原创把hive中的数据导入到hdfs或者本地文件的方式

把hive中的数据导入到hdfs或者本地文件的方式1、通过insert...directory方式导出数据到本地文件insert overwrite local directory '/opt/datas/hive/exp_hive'select * from emp ;insert overwrite local directory '/opt/datas/hive/exp_

2015-10-20 21:44:08 8698

原创加载数据到hive中的方式

加载数据到hive中的方式官网：https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DMLLOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 .

2015-10-20 00:32:50 16923 2

原创 hive sql详细学习

hive sql详细学习1、准备数据emp.txt7369 SMITH CLERK 7902 1980-12-17 800.00 207499 ALLEN SALESMAN 7698 1981-2-20 1600.00 300.00 307521 WARD SALESMAN 7698 1981-2-22 1250.00 500.00 307566 JONES MANAGER 7

2015-10-19 22:08:09 2902

原创 hive 创建表的三种方式

hive 创建表的三种方式官网地址：https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDLCREATE [TEMPORARY] [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.]table_name -- (Note: TEMPORARY available

2015-10-18 23:58:43 59105

原创 hive jdbc

hive jdbc hive jdbc 官网：https://cwiki.apache.org/confluence/display/Hive/HiveClient#HiveClient-JDBC

2015-10-18 22:50:52 825

原创 hive cli 常用操作(-e,-f.-i)

hive cli 常用操作(-e,-f.-i)官网：https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Cli1、bin/hive -helpbin/hive -help15/10/18 06:34:46 WARN conf.HiveConf: DEPRECATED: hive.metastore.ds.re

2015-10-18 22:05:15 8497

原创 hive常用属性设置

hive常用属性设置1、Hive数据仓库位置配置 (配置文件为/conf/hive-site.xml )hive表中的数据，存储在hdfs上的位置默认值：/user/hive/warehousehive.metastore.warehouse.dir/user/hive/warehouse2、Hive运行日志信息位置默认在：/tmp/root/hive.log

2015-10-18 21:05:33 4982

原创 hive基本操作

hive基本操作hive 官网为：https://cwiki.apache.org/confluence/display/Hive/GettingStarted#GettingStarted-SQLOperations1、展示数据库hive> show databases ;OKdefaulthelloTime taken: 0.243 seconds, Fetched: 2

2015-10-18 20:23:48 696

原创 HIVE入门安装及配置

HIVE安装及配置1、mysql安装需要软件为：MySQL-client-5.5.28-1.linux2.6.x86_64.rpm(client端)MySQL-server-5.5.28-1.linux2.6.x86_64.rpm #server端mysql-connector-java-5.1.10.jar (mysql驱动包)2、安装mysq

2015-10-18 15:22:18 475

原创 RDD Action 显示

RDD Action 显示val nums = sc.parallelize(List(1,2,3,6,4,7,5))nums.collect //会引起客户端内存溢出//返回前k 个元素nums.take(2)//返回排序后的前k 个元素nums.takeOrdered(2)//返回第一个元素nums.first//返回随

2015-10-17 22:26:56 788

原创 spark RDD key/value关联操作

RDD key/value关联操作val left = sc.parallelize(List(("spark",1),("hadoop",1),("storm",1)))val left = sc.parallelize(List(("scala",1),("hadoop",1),("spark",1)))关联2个RDD val joinOut = left join r

2015-10-17 21:48:56 2279

原创 Spark RDD 笛卡尔积

Spark RDD 笛卡尔积val left = sc.parallelize(List(1,2,3))val right = sc.parallelize(List(3,4,5,6))val out = left union right //返回所有元素新的RDD //{1,2,3,3,3,4,5,6}val insterstions = left intersection

2015-10-17 21:31:22 10443 1

原创 Spark控制ReduceTask数量

Spark控制ReduceTask数量所有key/value RDD操作都有一个可选参数,表示reduceTask的并行度1、通过查看http://192.168.80.20:4040/jobs/ val words = sc.parallelize(List(("spark",1),("hadoop",1),("hadoop",1),("hadoop",1)))words:

2015-10-17 20:56:52 4998 1

原创 Spark RDD transformation操作

Spark RDD transformation操作1、创建RDDval nums =sc.parallelize(List(1,2,3))nums: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[2] at parallelize at :212、将RDD转换为新的RDD 结果为(1,4,9)val squa

2015-10-17 20:17:24 544

原创 Spark standalone模式安装

Spark standalone模式安装1、下载软件(http://www.apache.org/dyn/closer.lua/spark/spark-1.4.1/spark-1.4.1-bin-hadoop2.4.tgz)2、准备机器我这里5台机器 192.168.80.20(cloud1) 192.168.80.21(cloud2) 192.168.80

2015-10-17 19:35:30 643

原创 spark入门

spark入门官网学习资料：http://spark.apache.org/docs/latest/quick-start.html1、val textFile = sc.textFile("F:\\spark-1.4.1-bin-hadoop2.4\\spark-1.4.1-bin-hadoop2.4\\README.md")2、textFile.count()3、textFil

2015-10-15 00:20:59 663

原创 strom 官方DRPC

storm 官方DRPCpackage drpc;import backtype.storm.Config;import backtype.storm.LocalCluster;import backtype.storm.LocalDRPC;import backtype.storm.StormSubmitter;import backtype.storm.drpc.LinearD

2015-10-04 21:04:58 899

梁小明的博客