自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

转载 使用Spark MLlib来训练并服务于自然语言处理模型

使用Spark MLlib来训练并服务于自然语言处理模型 229 次阅读 - 文章,编程语言 本文为数盟原创译文,转载时请务必注明出处为“数盟社区”,并将原文链接置于文首。 作者:Michelle Casbon  原文链接 在非结构化数据的海洋中识别出关键信...

2016-03-31 18:45:47 3915 0

转载 Apache Spark as a Service

Apache Spark as a Service Enterprise Spark on QDS QDS makes Spark enterprise ready, delivering simple, fast, cost effective and secure Sp...

2016-03-31 16:35:50 1585 0

转载 spark 开发环境读取mysql

问题导读 1、idea上运行local的spark sql hive流程是怎样的? 2、如何安装配置安装 remote metastore? 3、如何解决org.apache.spark的问题? 在本机上通过idea跑spark sql进行hive查询等操作,一方面可以用于...

2016-03-31 16:34:19 1612 0

转载 在spark中操作mysql数据 ---- spark学习之七

在spark中操作mysql数据 ---- spark学习之七 使用spark的 DataFrame 来操作mysql数据。 DataFrame是比RDD更高一个级别的抽象,可以应用SQL语句进行操作,详细参考: https://spark.apache.org/docs/latest/...

2016-03-31 10:18:09 2618 0

转载 Apache Spark Jobs 性能调优(二)

Apache Spark Jobs 性能调优(二) 2016-03-27 12:16:12 标签:spark性能 在这篇文章中,首先完成在 Part I 中提到的一些东西。作者将尽量覆盖到影响 Spark 程序性能的方方面面,你们将会了解到资源调优,或者如何配置 Spark 以压...

2016-03-28 18:39:56 592 0

转载 操作技巧:将 Spark 中的文本转换为 Parquet 以提升性能

操作技巧:将 Spark 中的文本转换为 Parquet 以提升性能 列式存储布局(比如 Parquet)可以加速查询,因为它只检查所有需要的列并对它们的值执行计算,因此只读取一个数据文件或表的小部分数据。Parquet 还支持灵活的压缩选项,因此可以显著减少磁盘上的存储。 0 ...

2016-03-28 17:30:27 7657 1

转载 Hive数据导入方案—使用ORC格式存储hive数据

目的:将上网日志导入到hive中,要求速度快,压缩高,查询快,表易维护。推荐使用ORC格式的表存储数据 思路:因为在hive指定RCFile格式的表,不能直接load数据,只能通过textfile表进行insert转换。考虑先建立txtFile格式内部临时表tmp_testp,使用hdfs ...

2016-03-27 17:58:27 16480 1

转载 揭开Spark Streaming神秘面纱② - ReceiverTracker 与数据导入

问题导读: 1.streaming application 如何兼容众多数据源? 2.receivers 是如何分发并启动的? 3.receiver 接收到的数据是如何流转的?   Spark Streaming 在数据接收与导入方面需要满足有以下三个特点: ...

2016-03-27 16:05:48 654 0

转载 hive0.14-insert、update、delete操作测试

问题导读 1.测试insert报错,该如何解决? 2.hive delete和update报错,该如何解决? 3.什么情况下才允许delete和update? 首先用最普通的建表语句建一个表: hive>create table test(i...

2016-03-24 18:54:21 2274 0

转载 Supported syntax of Spark SQL

http://docs.datastax.com/en/latest-dse/datastax_enterprise/spark/sparkSqlSupportedSyntax.html# Supported syntax of Spark SQL The following synt...

2016-03-24 15:07:35 478 0

转载 Hadoop Hive基础sql语法

Hadoop Hive基础sql语法 Posted on 2015-03-18 09:52 xuzhengzhu 阅读(5073) 评论(0) 编辑 收藏 1.DDL 操作 1.建表 2.3.创建简单表 4.创建外部表 5.建分区表 6.建Bucket表 7.创建表并创建索引字段...

2016-03-24 13:19:36 643 0

转载 深入分析Parquet列式存储格式

深入分析Parquet列式存储格式 作者 梁堰波 发布于 2015年8月7日 | 分享到: 微博 微信 Facebook Twitter 有道云笔记 邮件分享 稍后阅读我的阅读清单 Parquet是面向分析型业务的列式存储格式,由T...

2016-03-23 22:02:54 763 0

转载 揭开Spark Streaming神秘面纱②-ReceiverTracker 与数据导入

揭开Spark Streaming神秘面纱②-ReceiverTracker 与数据导入 Spark Streaming 在数据接收与导入方面需要满足有以下三个特点: 兼容众多输入源,包括HDFS, Flume, Kafka, Twitter and ZeroMQ。还可以自定义数据源要能为...

2016-03-23 18:56:24 639 0

转载 用Spark往Kafka里面写对象设计与实现

Spark和Kafka都是比较常用的两个大数据框架,Spark里面提供了对Kafka读写的支持。默认情况下我们Kafka只能写Byte数组到Topic里面,如果我们想往Topic里面读写String类型的消息,可以分别使用Kafka里面内置的StringEncoder编码类和StringDecod...

2016-03-21 09:06:42 1649 0

转载 Kafka Manager - 一个管理 Apache Kafka 的工具

Kafka Manager - 一个管理 Apache Kafka 的工具 时间 2015-02-05 08:23:49  佚名 原文  https://github.com/yahoo/kafka-manager 主题 Kafka A tool for managing ...

2016-03-17 14:31:20 3506 0

转载 apache kafka监控系列-KafkaOffsetMonitor

apache kafka中国社区QQ群:162272557 概览 最近kafka server消息服务上线了,基于jmx指标参数也写到zabbix中了,但总觉得缺少点什么东西,可视化可操作的界面。zabbix中数据比较分散,不能集中看整个集群情况。或者一个cluster中broker列表,自己...

2016-03-17 13:17:11 4805 0

转载 这才是真正的物流大数据挖掘思路

这才是真正的物流大数据挖掘思路! 2015-8-17 09:00| 发布者: admin| 查看: 108| 评论: 0|来自: PPV课大数据 摘要: 物流大数据主要包括运单信息的数据和车辆信息的数据,然而关于运单信息往往涉及商业机密,并且信息分布于不同行业企业内部,不宜公...

2016-03-15 12:35:06 5239 0

转载 LBS推荐系统的设计方法

摘要:推荐系统是兴趣点系统的核心,本文将重点介绍推荐系统。推荐系统是一个很庞大的课题,该文主要讲述推荐系统的设计方法,包含推荐系统的数学基础和设计原理。 在 《程序员》12月刊A中,我们介绍了POI(兴趣点)的设计及其搜索。由于推荐系统是兴趣点系统的核心,所以接下来,我们将介绍推荐系统。...

2016-03-13 17:13:23 1000 0

转载 jvm内存模型和内存分配

jvm内存模型和内存分配 1.什么是jvm? (1)jvm是一种用于计算设备的规范,它是一个虚构出来的机器,是通过在实际的计算机上仿真模拟各种功能实现的。 (2)jvm包含一套字节码指令集,一组寄存器,一个栈,一个垃圾回收堆和一个存储方法域。 (3)JVM屏蔽了...

2016-03-12 22:21:29 5489 0

转载 深入理解JVM—JVM内存模型

我们知道,计算机CPU和内存的交互是最频繁的,内存是我们的高速缓存区,用户磁盘和CPU的交互,而CPU运转速度越来越快,磁盘远远跟不上CPU的读写速度,才设计了内存,用户缓冲用户IO等待导致CPU的等待成本,但是随着CPU的发展,内存的读写速度也远远跟不上CPU的读写速度,因此,为了解决这一纠纷,...

2016-03-12 22:19:26 5031 0

转载 spark出现task不能序列化错误的解决方法

应用场景:使用JavaHiveContext执行SQL之后,希望能得到其字段名及相应的值,但却出现"Caused by: java.io.NotSerializableException: org.apache.spark.sql.api.java.StructField"的错...

2016-03-10 13:18:08 9379 0

转载 scala 中json 应用

Beautiful JSON parsing in Scala You probably all know JSON - it's becoming the universal data exchange format, slowly but steadily replacin...

2016-03-10 08:35:24 10241 1

转载 JAVA利用HttpClient进行POST请求(HTTPS)

目前,要为另一个项目提供接口,接口是用HTTP URL实现的,最初的想法是另一个项目用JQuery post进行请求。 但是,很可能另一个项目是部署在别的机器上,那么就存在跨域问题,而JQuery的post请求是不允许跨域的。 这时,就只能够用HttpClient包进行请求了,同时由于请求的U...

2016-03-08 10:21:32 8458 0

转载 Java堆内存

Java 中的堆是 JVM 所管理的最大的一块内存空间,主要用于存放各种类的实例对象。    在 Java 中,堆被划分成两个不同的区域:新生代 ( Young )、老年代 ( Old )。新生代 ( Young ) 又被划分为三个区域:Eden、From Survivor、To Survivo...

2016-03-07 08:37:27 962 1

转载 Scala的sealed关键字

Scala的sealed关键字 缘起 今天在学习Akka的监控策咯过程中看到了下面一段代码: def supervisorStrategy(): SupervisorStrategy = OneForOneStrategy(maxNrOfRetries = 10, withinTimeR...

2016-03-05 16:57:43 396 0

转载 Spark Streaming容错的改进和零数据丢失

Spark Streaming容错的改进和零数据丢失 发表于2015-03-04 15:28| 4121次阅读| 来源Databricks| 2 条评论| 作者Tathagata Das Spark开发者大数据数据库 摘要:实时流处理系统必须要能在24/7时间内工作,因此它...

2016-03-04 14:14:06 354 0

转载 HDFS文件内容追加(Append)

HDFS文件内容追加(Append)    HDFS设计之处并不支持给文件追加内容,这样的设计是有其背景的(如果想了解更多关于HDFS的append的曲折实现,可以参考《File Appends in HDFS》:http://blog.cloudera.com/blog/2009...

2016-03-04 13:43:16 5554 1

转载 Spark Streaming+Flume对接实验(推送)

Spark Streaming+Flume对接实验 软件环境: flume-ng-core-1.4.0-cdh5.0.0 spark-1.2.0-bin-hadoop2.3 流程说明: Spark Streaming: 使用spark-streaming-flume_2.10-1.2.0插件,启...

2016-03-02 14:52:53 1136 0

转载 Kafka+Spark Streaming+Redis实时系统实践

基于Spark通用计算平台,可以很好地扩展各种计算类型的应用,尤其是Spark提供了内建的计算库支持,像Spark Streaming、Spark SQL、MLlib、GraphX,这些内建库都提供了高级抽象,可以用非常简洁的代码实现复杂的计算逻辑、这也得益于Scala编程语言的简洁性。这里,我...

2016-03-01 12:15:22 1290 0

转载 Spark Streaming中向flume拉取数据

Spark Streaming中向flume拉取数据 分享: 0 在这里看到的解决方法 https://issues.apache.org/jira/browse/SPARK-1729 请是个人理解,有问题请大家留言。   其实本身flume是不支持像KAFKA一样的发布/...

2016-03-01 11:15:21 847 0

提示
确定要删除当前文章?
取消 删除