自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(30)
  • 资源 (4)
  • 收藏
  • 关注

转载 使用Spark MLlib来训练并服务于自然语言处理模型

使用Spark MLlib来训练并服务于自然语言处理模型229 次阅读 - 文章,编程语言本文为数盟原创译文,转载时请务必注明出处为“数盟社区”,并将原文链接置于文首。作者:Michelle Casbon  原文链接在非结构化数据的海洋中识别出关键信息,或实时人机交互的自定义,是客户如何利用我们的技术的一组例子,我们的公司Idibon——一个专注于自

2016-03-31 18:45:47 4399

转载 Apache Spark as a Service

Apache Spark as a ServiceEnterprise Spark on QDSQDS makes Spark enterprise ready, delivering simple, fast, cost effective and secure Spark processing on the AWS Cloud and Google Cloud Pl

2016-03-31 16:35:50 1836

转载 spark 开发环境读取mysql

问题导读1、idea上运行local的spark sql hive流程是怎样的?2、如何安装配置安装 remote metastore?3、如何解决org.apache.spark的问题?在本机上通过idea跑spark sql进行hive查询等操作,一方面可以用于debug spark sql相关源码,另一方面可以加快开发测试进度,比如添加Udf等。这里总共两

2016-03-31 16:34:19 1738

转载 在spark中操作mysql数据 ---- spark学习之七

在spark中操作mysql数据 ---- spark学习之七使用spark的 DataFrame 来操作mysql数据。DataFrame是比RDD更高一个级别的抽象,可以应用SQL语句进行操作,详细参考:https://spark.apache.org/docs/latest/sql-programming-guide.html 这里暂时使用spark-shell进行操

2016-03-31 10:18:09 2774

转载 Apache Spark Jobs 性能调优(二)

Apache Spark Jobs 性能调优(二)2016-03-27 12:16:12标签:spark性能在这篇文章中,首先完成在 Part I 中提到的一些东西。作者将尽量覆盖到影响 Spark 程序性能的方方面面,你们将会了解到资源调优,或者如何配置 Spark 以压榨出集群每一分资源。然后我们将讲述调试并发度,这是job性能中最难也是最重要的参数。最后,你将了解到数

2016-03-28 18:39:56 724

转载 操作技巧:将 Spark 中的文本转换为 Parquet 以提升性能

操作技巧:将 Spark 中的文本转换为 Parquet 以提升性能列式存储布局(比如 Parquet)可以加速查询,因为它只检查所有需要的列并对它们的值执行计算,因此只读取一个数据文件或表的小部分数据。Parquet 还支持灵活的压缩选项,因此可以显著减少磁盘上的存储。0评论:JESSE F. CHEN, 软件工程师关闭 [x]

2016-03-28 17:30:27 8728 1

转载 Hive数据导入方案—使用ORC格式存储hive数据

目的:将上网日志导入到hive中,要求速度快,压缩高,查询快,表易维护。推荐使用ORC格式的表存储数据思路:因为在hive指定RCFile格式的表,不能直接load数据,只能通过textfile表进行insert转换。考虑先建立txtFile格式内部临时表tmp_testp,使用hdfs fs -put命令向tmp_testp表路径拷贝数据(不是load),再建立ORC格式外部表http_

2016-03-27 17:58:27 20897 1

转载 揭开Spark Streaming神秘面纱② - ReceiverTracker 与数据导入

问题导读:1.streaming application 如何兼容众多数据源?2.receivers 是如何分发并启动的?3.receiver 接收到的数据是如何流转的? Spark Streaming 在数据接收与导入方面需要满足有以下三个特点:兼容众多输入源,包括HDFS, Flume, Kafka, Twitter and Zero

2016-03-27 16:05:48 789

转载 hive0.14-insert、update、delete操作测试

问题导读1.测试insert报错,该如何解决?2.hive delete和update报错,该如何解决?3.什么情况下才允许delete和update?首先用最普通的建表语句建一个表:hive>create table test(id int,name string)row format delimited fields terminat

2016-03-24 18:54:21 2789

转载 Supported syntax of Spark SQL

http://docs.datastax.com/en/latest-dse/datastax_enterprise/spark/sparkSqlSupportedSyntax.html#Supported syntax of Spark SQLThe following syntax defines a SELECT query.SELECT [DISTINCT] [colu

2016-03-24 15:07:35 623

转载 Hadoop Hive基础sql语法

Hadoop Hive基础sql语法Posted on 2015-03-18 09:52 xuzhengzhu 阅读(5073) 评论(0)编辑 收藏 1.DDL 操作1.建表2.3.创建简单表4.创建外部表5.建分区表6.建Bucket表7.创建表并创建索引字段ds8.复制一个空表9.显示所有表10.按正条件正则表达

2016-03-24 13:19:36 750

转载 深入分析Parquet列式存储格式

深入分析Parquet列式存储格式作者 梁堰波 发布于 2015年8月7日 | 分享到:微博 微信 Facebook Twitter 有道云笔记 邮件分享 稍后阅读我的阅读清单Parquet是面向分析型业务的列式存储格式,由Twitter和Cloudera合作开发,2015年5月从Apache的孵化器里毕业成为Apache顶级

2016-03-23 22:02:54 888

转载 揭开Spark Streaming神秘面纱②-ReceiverTracker 与数据导入

揭开Spark Streaming神秘面纱②-ReceiverTracker 与数据导入Spark Streaming 在数据接收与导入方面需要满足有以下三个特点:兼容众多输入源,包括HDFS, Flume, Kafka, Twitter and ZeroMQ。还可以自定义数据源要能为每个 batch 的 RDD 提供相应的输入数据为适应 7*24h 不间断运行,要有接收数

2016-03-23 18:56:24 759

转载 用Spark往Kafka里面写对象设计与实现

Spark和Kafka都是比较常用的两个大数据框架,Spark里面提供了对Kafka读写的支持。默认情况下我们Kafka只能写Byte数组到Topic里面,如果我们想往Topic里面读写String类型的消息,可以分别使用Kafka里面内置的StringEncoder编码类和StringDecoder解码类。那如果我们想往Kafka里面写对象怎么办?  别担心,Kafka中的kafka.ser

2016-03-21 09:06:42 1838

转载 Kafka Manager - 一个管理 Apache Kafka 的工具

Kafka Manager - 一个管理 Apache Kafka 的工具时间 2015-02-05 08:23:49  佚名原文  https://github.com/yahoo/kafka-manager主题 KafkaA tool for managing Apache Kafka .It supports the following :Ma

2016-03-17 14:31:20 3668

转载 apache kafka监控系列-KafkaOffsetMonitor

apache kafka中国社区QQ群:162272557概览最近kafka server消息服务上线了,基于jmx指标参数也写到zabbix中了,但总觉得缺少点什么东西,可视化可操作的界面。zabbix中数据比较分散,不能集中看整个集群情况。或者一个cluster中broker列表,自己写web-console比较耗时耗力,用原型工具画了一些管理界面东西,关键自己也不前端方面技术,这方面

2016-03-17 13:17:11 4947

转载 这才是真正的物流大数据挖掘思路

这才是真正的物流大数据挖掘思路! 2015-8-17 09:00| 发布者: admin| 查看: 108| 评论: 0|来自: PPV课大数据摘要: 物流大数据主要包括运单信息的数据和车辆信息的数据,然而关于运单信息往往涉及商业机密,并且信息分布于不同行业企业内部,不宜公开。因此当前现实的数据条件来看,实业界和学术界的物流大数据主要是关于货运车辆信 ...

2016-03-15 12:35:06 6897

转载 LBS推荐系统的设计方法

摘要:推荐系统是兴趣点系统的核心,本文将重点介绍推荐系统。推荐系统是一个很庞大的课题,该文主要讲述推荐系统的设计方法,包含推荐系统的数学基础和设计原理。在 《程序员》12月刊A中,我们介绍了POI(兴趣点)的设计及其搜索。由于推荐系统是兴趣点系统的核心,所以接下来,我们将介绍推荐系统。推荐系统是一个很庞大的课题,将分成两期予以介绍:本期讲述推荐系统的设计方法,包含推荐系统的数学基础和设

2016-03-13 17:13:23 1356

转载 jvm内存模型和内存分配

jvm内存模型和内存分配1.什么是jvm?(1)jvm是一种用于计算设备的规范,它是一个虚构出来的机器,是通过在实际的计算机上仿真模拟各种功能实现的。(2)jvm包含一套字节码指令集,一组寄存器,一个栈,一个垃圾回收堆和一个存储方法域。(3)JVM屏蔽了与具体操作系统平台相关的信息,使Java程序只需生成在Java虚拟机上运行的目标代码(字节码),就可以

2016-03-12 22:21:29 5899

转载 深入理解JVM—JVM内存模型

我们知道,计算机CPU和内存的交互是最频繁的,内存是我们的高速缓存区,用户磁盘和CPU的交互,而CPU运转速度越来越快,磁盘远远跟不上CPU的读写速度,才设计了内存,用户缓冲用户IO等待导致CPU的等待成本,但是随着CPU的发展,内存的读写速度也远远跟不上CPU的读写速度,因此,为了解决这一纠纷,CPU厂商在每颗CPU上加入了高速缓存,用来缓解这种症状,因此,现在CPU同内存交互就变成了下面的样子

2016-03-12 22:19:26 5174

转载 spark出现task不能序列化错误的解决方法

应用场景:使用JavaHiveContext执行SQL之后,希望能得到其字段名及相应的值,但却出现"Caused by: java.io.NotSerializableException: org.apache.spark.sql.api.java.StructField"的错误,代码如下:JavaSparkContext sc = new JavaSparkContext(conf)

2016-03-10 13:18:08 10267

转载 scala 中json 应用

Beautiful JSON parsing in ScalaYou probably all know JSON - it's becoming the universal data exchange format, slowly but steadily replacing XML. In JavaScript, JSON is a proper first class citiz

2016-03-10 08:35:24 10924 1

转载 JAVA利用HttpClient进行POST请求(HTTPS)

目前,要为另一个项目提供接口,接口是用HTTP URL实现的,最初的想法是另一个项目用JQuery post进行请求。但是,很可能另一个项目是部署在别的机器上,那么就存在跨域问题,而JQuery的post请求是不允许跨域的。这时,就只能够用HttpClient包进行请求了,同时由于请求的URL是HTTPS的,为了避免需要证书,所以用一个类继承DefaultHttpClient类,忽略校验过

2016-03-08 10:21:32 8732

转载 Java堆内存

Java 中的堆是 JVM 所管理的最大的一块内存空间,主要用于存放各种类的实例对象。   在 Java 中,堆被划分成两个不同的区域:新生代 ( Young )、老年代 ( Old )。新生代 ( Young ) 又被划分为三个区域:Eden、From Survivor、To Survivor。   这样划分的目的是为了使 JVM 能够更好的管理堆内存中的对象,包括内存的分配以及回收。 

2016-03-07 08:37:27 1058 1

转载 Scala的sealed关键字

Scala的sealed关键字缘起今天在学习Akka的监控策咯过程中看到了下面一段代码: def supervisorStrategy(): SupervisorStrategy = OneForOneStrategy(maxNrOfRetries = 10, withinTimeRange = 10 seconds) { case _: ArithmeticExcepti

2016-03-05 16:57:43 539

转载 Spark Streaming容错的改进和零数据丢失

Spark Streaming容错的改进和零数据丢失发表于2015-03-04 15:28| 4121次阅读| 来源Databricks| 2 条评论| 作者Tathagata DasSpark开发者大数据数据库 摘要:实时流处理系统必须要能在24/7时间内工作,因此它需要具备从各种系统故障中恢复过来的能力。最开始,Spark Streaming就支持从driver

2016-03-04 14:14:06 450

转载 HDFS文件内容追加(Append)

HDFS文件内容追加(Append)  HDFS设计之处并不支持给文件追加内容,这样的设计是有其背景的(如果想了解更多关于HDFS的append的曲折实现,可以参考《File Appends in HDFS》:http://blog.cloudera.com/blog/2009/07/file-appends-in-hdfs/),但从HDFS2.x开始支持给文件追加内容,可以参

2016-03-04 13:43:16 9081 1

转载 Spark Streaming+Flume对接实验(推送)

Spark Streaming+Flume对接实验软件环境:flume-ng-core-1.4.0-cdh5.0.0spark-1.2.0-bin-hadoop2.3流程说明:Spark Streaming: 使用spark-streaming-flume_2.10-1.2.0插件,启动一个avro source,用来接收数据,并做相应的处理;Flume agent:sou

2016-03-02 14:52:53 1280

转载 Kafka+Spark Streaming+Redis实时系统实践

基于Spark通用计算平台,可以很好地扩展各种计算类型的应用,尤其是Spark提供了内建的计算库支持,像Spark Streaming、Spark SQL、MLlib、GraphX,这些内建库都提供了高级抽象,可以用非常简洁的代码实现复杂的计算逻辑、这也得益于Scala编程语言的简洁性。这里,我们基于1.3.0版本的Spark搭建了计算平台,实现基于Spark Streaming的实时计算。

2016-03-01 12:15:22 1685

转载 Spark Streaming中向flume拉取数据

Spark Streaming中向flume拉取数据分享:0在这里看到的解决方法https://issues.apache.org/jira/browse/SPARK-1729请是个人理解,有问题请大家留言。 其实本身flume是不支持像KAFKA一样的发布/订阅功能的,也就是说无法让spark去flume拉取数据,所以老

2016-03-01 11:15:21 970

2007年下半年系统分析师下午试卷Ⅱ.doc

2007年下半年系统分析师下午试卷Ⅱ.doc

2007-11-21

2007年下半年系统分析师下午试卷Ⅰ.doc

2007年下半年系统分析师下午试卷Ⅰ.doc

2007-11-21

2007年下半年系统分析师上午试卷.doc

2007年下半年系统分析师上午试卷.doc

2007-11-21

2007年下半年系统分析师考试试题分析.doc

2007年下半年系统分析师考试试题分析.doc

2007-11-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除