- 博客(66)
- 资源 (2)
- 收藏
- 关注
原创 LearningSpark9:SparkSQL
这章讨论spark对结构化和半结构化数据的接口sparksql,结构化数据是有schema 的数据,schema即每个记录的的字段集。sparksql提供了三个主要的能力:通过多种结构化数据源加载数据(JSON,Hive,Parquet)在spark程序和从通过标准数据库连接(JDBC/ODBC)连接到sparksql的外部工具(如商业智能工具Tableau)用SQL查询数据当在spark程序
2015-08-31 16:14:05 836
翻译 learningspark7
用sbt构建的一个scala语言spark应用 Example 7-7. build.sbt file for a Spark application built with sbt 0.13import AssemblyKeys._name := "Simple Project"version := "1.0"organization := "com.databricks"scalaVer
2015-08-31 11:51:51 390
翻译 LearningSpark6.1
spark源码阅读环境本章引入两类共享变量:累加器和广播变量。累加器聚合信息,广播变量有效的分布大值。引进批处理人南无,如数据库查询。覆盖和外部程序交互,如R脚本。 使用pipe()方法获得R的库累加器当我们传递如map()函数或条件给filter(),在驱动程序里,它们可以使用它们外部定义的变量,但是集群上运行的每个任务都获得每个变量的新的复制,这些复制的更新并没有传回驱动程序。spark共享变
2015-08-31 11:08:45 385
翻译 Scala构建工具(SBT)教程
我们使用 sbt 创建、测试、运行和提交作业。该教程会解释你在我们的课程中将会用到的所有 sbt 命令。工具安装页说明了如何安装 sbt。 启动 sbt 要启动 sbt,打开一个终端(Windows 中的”命令提示符“)并切换到你正在解决的作业所在目录。输入sbt 将会打开 sbt 命令提示符。 shellcd /path/to/progfun-project-directory #这是操作系
2015-08-31 00:20:20 1376
原创 整合spark和hive
参考1 参考2 事先启动了hive-metastore服务 启动了hadoop 启动了spark集群 接着启动spark-shellbin/spark-shell --master spark://moon:7077 --driver-class-path /usr/local/hive/lib/mysql-connector-java-5.1.18-bin.jar使用HiveConte
2015-08-29 15:28:10 2330
转载 Maven 项目打包发布
发布的第一件要做的事情是打包。 在Eclipse左侧右击项目,Debug As -> Debug Configurations -> 双击Maven Build 然后看弹出框的右侧 右侧的Name随便填写一个名字, Basedirectory 则选择项目路径 Goals是Maven文档里会有说明的目标动作,一般填”clean install”就是可以了。填的时候不要引号 然后点击Debug
2015-08-29 10:42:31 450
原创 storm资源
一这里讲了一个example博客虫二learningstorm8笔记三wordcount示例讲解 笔记: 1,ctrl+r 输入查找词可以回调已经执行的命令 2,在work节点的log中查看结果cd /usr/apache-storm-0.9.2-incubating/logs/tail -f worker-6703.log 拓扑任务产生的工作log,6703端口这个log不断刷新
2015-08-27 22:08:28 415
原创 LearningStorm第8章(2)
运行KafkaLogProducer1,启动zookeeperhadoop@moon:/usr/local/cloud/zookeeper-3.4.6$ ./bin/zkServer.sh start &[2] 11035hadoop@moon:/usr/local/cloud/zookeeper-3.4.6$ JMX enabled by defaultUsing config: /usr/
2015-08-27 17:08:46 505
原创 LearningStorm第6章笔记
YARN集群的主要组件资源管理(RM):YARN集群应用的入口,是集群的主进程,负责管理集群资源。也负责调度多个job提交到集群。调度的原则是可插拔(pluggable)且可以被用户定制如果他们像支持新应用。NodeManager:NodeManager代理部署在集群每个节点进程,与RM配对。它与RM交互来更新节点状态,获取job请求。也负责管理的生命循环,报告节点变化给RMApplicati
2015-08-27 16:14:30 456
原创 scala集合
列表LISTscala> val numbers = List(1, 2, 3, 4)numbers: List[Int] = List(1, 2, 3, 4)集 Set集没有重复scala> Set(1, 1, 2)res0: scala.collection.immutable.Set[Int] = Set(1, 2)元组 Tuple元组是在不使用类的前提下,将元素组合起来形成简单的逻辑集
2015-08-26 13:42:42 337
原创 Chap4:Storm集成Kafka
本文讨论: • Kafka概览 • Setting up a single node and multinode Kafka cluster • Producing data into a Kafka partition • Using KafkaSpout in a Storm topology to consume messages from Kafka
2015-08-25 16:17:30 770
原创 Spark Streaming编程指南
Spark Streaming属于Spark的核心api,它支持高吞吐量、支持容错的实时流数据处理。它可以接受来自Kafka, Flume, Twitter, ZeroMQ和TCP Socket的数据源,使用简单的api函数比如 map, reduce, join, window等操作,还可以直接使用内置的机器学习算法、图算法包来处理数据。 它的工作流程像下面的图所示一样,接受到实时数据后,给
2015-08-25 08:57:13 552
原创 latex简历
下载模板模板地址Important Notes:This template needs to be compiled with XeLaTeX and the bibliography, if used, needs to be compiled with biber rather than bibtex. If you have any compilation issues, please try
2015-08-24 23:32:39 573
转载 经典mysql语句
经典SQL语句大全一、基础1、说明:创建数据库CREATE DATABASE database-name 2、说明:删除数据库drop database dbname3、说明:备份sql server--- 创建 备份数据的 deviceUSE masterEXEC sp_addumpdevice 'disk', 'testBack', 'c:\mssq
2015-08-22 10:31:26 366
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人