2015年08月_岸芷汀兰whu

原创 LearningSpark9:SparkSQL

这章讨论spark对结构化和半结构化数据的接口sparksql，结构化数据是有schema 的数据，schema即每个记录的的字段集。sparksql提供了三个主要的能力：通过多种结构化数据源加载数据(JSON,Hive,Parquet)在spark程序和从通过标准数据库连接（JDBC/ODBC）连接到sparksql的外部工具（如商业智能工具Tableau）用SQL查询数据当在spark程序

2015-08-31 16:14:05 836

翻译 learningspark7

用sbt构建的一个scala语言spark应用 Example 7-7. build.sbt file for a Spark application built with sbt 0.13import AssemblyKeys._name := "Simple Project"version := "1.0"organization := "com.databricks"scalaVer

2015-08-31 11:51:51 390

翻译 LearningSpark6.1

spark源码阅读环境本章引入两类共享变量：累加器和广播变量。累加器聚合信息，广播变量有效的分布大值。引进批处理人南无，如数据库查询。覆盖和外部程序交互，如R脚本。使用pipe()方法获得R的库累加器当我们传递如map()函数或条件给filter()，在驱动程序里，它们可以使用它们外部定义的变量，但是集群上运行的每个任务都获得每个变量的新的复制，这些复制的更新并没有传回驱动程序。spark共享变

2015-08-31 11:08:45 385

翻译 Scala构建工具(SBT)教程

我们使用 sbt 创建、测试、运行和提交作业。该教程会解释你在我们的课程中将会用到的所有 sbt 命令。工具安装页说明了如何安装 sbt。启动 sbt 要启动 sbt，打开一个终端（Windows 中的”命令提示符“）并切换到你正在解决的作业所在目录。输入sbt 将会打开 sbt 命令提示符。 shellcd /path/to/progfun-project-directory #这是操作系

2015-08-31 00:20:20 1376

原创整合spark和hive

参考1 参考2 事先启动了hive-metastore服务启动了hadoop 启动了spark集群接着启动spark-shellbin/spark-shell --master spark://moon:7077 --driver-class-path /usr/local/hive/lib/mysql-connector-java-5.1.18-bin.jar使用HiveConte

2015-08-29 15:28:10 2330

转载 Maven 项目打包发布

发布的第一件要做的事情是打包。在Eclipse左侧右击项目，Debug As -> Debug Configurations -> 双击Maven Build 然后看弹出框的右侧右侧的Name随便填写一个名字， Basedirectory 则选择项目路径 Goals是Maven文档里会有说明的目标动作，一般填”clean install”就是可以了。填的时候不要引号然后点击Debug

2015-08-29 10:42:31 450

原创 spark官方文档翻译收藏

Spark SQL中的DataFrame 编程指南中文书

2015-08-28 09:35:17 605

原创 storm资源

一这里讲了一个example博客虫二learningstorm8笔记三wordcount示例讲解笔记： 1，ctrl+r 输入查找词可以回调已经执行的命令 2，在work节点的log中查看结果cd /usr/apache-storm-0.9.2-incubating/logs/tail -f worker-6703.log 拓扑任务产生的工作log，6703端口这个log不断刷新

2015-08-27 22:08:28 415

原创 LearningStorm第8章（2）

运行KafkaLogProducer1,启动zookeeperhadoop@moon:/usr/local/cloud/zookeeper-3.4.6$ ./bin/zkServer.sh start &[2] 11035hadoop@moon:/usr/local/cloud/zookeeper-3.4.6$ JMX enabled by defaultUsing config: /usr/

2015-08-27 17:08:46 505

原创 LearningStorm第6章笔记

YARN集群的主要组件资源管理（RM）：YARN集群应用的入口，是集群的主进程，负责管理集群资源。也负责调度多个job提交到集群。调度的原则是可插拔(pluggable)且可以被用户定制如果他们像支持新应用。NodeManager：NodeManager代理部署在集群每个节点进程，与RM配对。它与RM交互来更新节点状态，获取job请求。也负责管理的生命循环，报告节点变化给RMApplicati

2015-08-27 16:14:30 456

转载 [翻译][Trident] Storm Trident 教程

原文

2015-08-27 15:28:06 368

翻译 Spark SQL and DataFrame Guide

spark SQL和数据框指南

2015-08-27 09:55:14 677

原创 scala集合

列表LISTscala> val numbers = List(1, 2, 3, 4)numbers: List[Int] = List(1, 2, 3, 4)集 Set集没有重复scala> Set(1, 1, 2)res0: scala.collection.immutable.Set[Int] = Set(1, 2)元组 Tuple元组是在不使用类的前提下，将元素组合起来形成简单的逻辑集

2015-08-26 13:42:42 337

原创 Chap4:Storm集成Kafka

本文讨论： • Kafka概览 • Setting up a single node and multinode Kafka cluster • Producing data into a Kafka partition • Using KafkaSpout in a Storm topology to consume messages from Kafka

2015-08-25 16:17:30 770

原创 Setting up a Storm Cluster

storm集群的搭建及远程提交拓扑

2015-08-25 15:26:30 405

原创 Spark技术实战之1--KafkaWordCount

KafkaWordCount

2015-08-25 09:55:55 1919

转载 spark读取kafka nginx网站日志消息并写入HDFS中

spark，kafka

2015-08-25 09:30:32 1325

原创 Spark Streaming编程指南

Spark Streaming属于Spark的核心api，它支持高吞吐量、支持容错的实时流数据处理。它可以接受来自Kafka, Flume, Twitter, ZeroMQ和TCP Socket的数据源，使用简单的api函数比如 map, reduce, join, window等操作，还可以直接使用内置的机器学习算法、图算法包来处理数据。它的工作流程像下面的图所示一样，接受到实时数据后，给

2015-08-25 08:57:13 552

下载模板模板地址Important Notes:This template needs to be compiled with XeLaTeX and the bibliography, if used, needs to be compiled with biber rather than bibtex. If you have any compilation issues, please try

2015-08-24 23:32:39 573

转载使用sbt构建scala应用

sbt构建scala应用

2015-08-24 16:31:50 3164

原创用Scala调用MLLib之二元分类

scala调用MLLib之二元分类

2015-08-24 14:25:29 806

原创 sparkSQL实战一：利用反射推断模式

sparkSQL操作实战

2015-08-24 11:28:31 1136

原创 spark源码阅读环境搭建

官方源码下载指导

2015-08-24 10:45:59 351

原创 hive 安装及使用

hive安装及使用

2015-08-24 08:58:56 889

原创 UFLDL机器学习

UFLDL机器学习UFLDL-斯坦福大学Andrew Ng教授“Deep Learning”教程大量机器学习资料

2015-08-22 23:25:57 604

转载 SPARK机器学习库

[淘宝技术部]SparkMLLIb机器学习库

2015-08-22 22:57:16 456

转载经典mysql语句

经典SQL语句大全一、基础1、说明：创建数据库CREATE DATABASE database-name 2、说明：删除数据库drop database dbname3、说明：备份sql server--- 创建备份数据的 deviceUSE masterEXEC sp_addumpdevice 'disk', 'testBack', 'c:\mssq

2015-08-22 10:31:26 366

hadoop开发所需类

高清超级无敌python教程

空空如也