自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(30)
  • 资源 (4)
  • 论坛 (33)
  • 收藏
  • 关注

转载 使用Spark MLlib来训练并服务于自然语言处理模型

使用Spark MLlib来训练并服务于自然语言处理模型229 次阅读 - 文章,编程语言本文为数盟原创译文,转载时请务必注明出处为“数盟社区”,并将原文链接置于文首。作者:Michelle Casbon  原文链接在非结构化数据的海洋中识别出关键信息,或实时人机交互的自定义,是客户如何利用我们的技术的一组例子,我们的公司Idibon——一个专注于自

2016-03-31 18:45:47 4226

转载 Apache Spark as a Service

Apache Spark as a ServiceEnterprise Spark on QDSQDS makes Spark enterprise ready, delivering simple, fast, cost effective and secure Spark processing on the AWS Cloud and Google Cloud Pl

2016-03-31 16:35:50 1692

转载 spark 开发环境读取mysql

问题导读1、idea上运行local的spark sql hive流程是怎样的?2、如何安装配置安装 remote metastore?3、如何解决org.apache.spark的问题?在本机上通过idea跑spark sql进行hive查询等操作,一方面可以用于debug spark sql相关源码,另一方面可以加快开发测试进度,比如添加Udf等。这里总共两

2016-03-31 16:34:19 1657

转载 在spark中操作mysql数据 ---- spark学习之七

在spark中操作mysql数据 ---- spark学习之七使用spark的 DataFrame 来操作mysql数据。DataFrame是比RDD更高一个级别的抽象,可以应用SQL语句进行操作,详细参考:https://spark.apache.org/docs/latest/sql-programming-guide.html 这里暂时使用spark-shell进行操

2016-03-31 10:18:09 2673

转载 Apache Spark Jobs 性能调优(二)

Apache Spark Jobs 性能调优(二)2016-03-27 12:16:12标签:spark性能在这篇文章中,首先完成在 Part I 中提到的一些东西。作者将尽量覆盖到影响 Spark 程序性能的方方面面,你们将会了解到资源调优,或者如何配置 Spark 以压榨出集群每一分资源。然后我们将讲述调试并发度,这是job性能中最难也是最重要的参数。最后,你将了解到数

2016-03-28 18:39:56 620

转载 操作技巧:将 Spark 中的文本转换为 Parquet 以提升性能

操作技巧:将 Spark 中的文本转换为 Parquet 以提升性能列式存储布局(比如 Parquet)可以加速查询,因为它只检查所有需要的列并对它们的值执行计算,因此只读取一个数据文件或表的小部分数据。Parquet 还支持灵活的压缩选项,因此可以显著减少磁盘上的存储。0评论:JESSE F. CHEN, 软件工程师关闭 [x]

2016-03-28 17:30:27 8323 1

转载 Hive数据导入方案—使用ORC格式存储hive数据

目的:将上网日志导入到hive中,要求速度快,压缩高,查询快,表易维护。推荐使用ORC格式的表存储数据思路:因为在hive指定RCFile格式的表,不能直接load数据,只能通过textfile表进行insert转换。考虑先建立txtFile格式内部临时表tmp_testp,使用hdfs fs -put命令向tmp_testp表路径拷贝数据(不是load),再建立ORC格式外部表http_

2016-03-27 17:58:27 19607 1

转载 揭开Spark Streaming神秘面纱② - ReceiverTracker 与数据导入

问题导读:1.streaming application 如何兼容众多数据源?2.receivers 是如何分发并启动的?3.receiver 接收到的数据是如何流转的? Spark Streaming 在数据接收与导入方面需要满足有以下三个特点:兼容众多输入源,包括HDFS, Flume, Kafka, Twitter and Zero

2016-03-27 16:05:48 691

转载 hive0.14-insert、update、delete操作测试

问题导读1.测试insert报错,该如何解决?2.hive delete和update报错,该如何解决?3.什么情况下才允许delete和update?首先用最普通的建表语句建一个表:hive>create table test(id int,name string)row format delimited fields terminat

2016-03-24 18:54:21 2431

转载 Supported syntax of Spark SQL

http://docs.datastax.com/en/latest-dse/datastax_enterprise/spark/sparkSqlSupportedSyntax.html#Supported syntax of Spark SQLThe following syntax defines a SELECT query.SELECT [DISTINCT] [colu

2016-03-24 15:07:35 534

转载 Hadoop Hive基础sql语法

Hadoop Hive基础sql语法Posted on 2015-03-18 09:52 xuzhengzhu 阅读(5073) 评论(0)编辑 收藏 1.DDL 操作1.建表2.3.创建简单表4.创建外部表5.建分区表6.建Bucket表7.创建表并创建索引字段ds8.复制一个空表9.显示所有表10.按正条件正则表达

2016-03-24 13:19:36 673

转载 深入分析Parquet列式存储格式

深入分析Parquet列式存储格式作者 梁堰波 发布于 2015年8月7日 | 分享到:微博 微信 Facebook Twitter 有道云笔记 邮件分享 稍后阅读我的阅读清单Parquet是面向分析型业务的列式存储格式,由Twitter和Cloudera合作开发,2015年5月从Apache的孵化器里毕业成为Apache顶级

2016-03-23 22:02:54 788

转载 揭开Spark Streaming神秘面纱②-ReceiverTracker 与数据导入

揭开Spark Streaming神秘面纱②-ReceiverTracker 与数据导入Spark Streaming 在数据接收与导入方面需要满足有以下三个特点:兼容众多输入源,包括HDFS, Flume, Kafka, Twitter and ZeroMQ。还可以自定义数据源要能为每个 batch 的 RDD 提供相应的输入数据为适应 7*24h 不间断运行,要有接收数

2016-03-23 18:56:24 684

转载 用Spark往Kafka里面写对象设计与实现

Spark和Kafka都是比较常用的两个大数据框架,Spark里面提供了对Kafka读写的支持。默认情况下我们Kafka只能写Byte数组到Topic里面,如果我们想往Topic里面读写String类型的消息,可以分别使用Kafka里面内置的StringEncoder编码类和StringDecoder解码类。那如果我们想往Kafka里面写对象怎么办?  别担心,Kafka中的kafka.ser

2016-03-21 09:06:42 1713

转载 Kafka Manager - 一个管理 Apache Kafka 的工具

Kafka Manager - 一个管理 Apache Kafka 的工具时间 2015-02-05 08:23:49  佚名原文  https://github.com/yahoo/kafka-manager主题 KafkaA tool for managing Apache Kafka .It supports the following :Ma

2016-03-17 14:31:20 3581

转载 apache kafka监控系列-KafkaOffsetMonitor

apache kafka中国社区QQ群:162272557概览最近kafka server消息服务上线了,基于jmx指标参数也写到zabbix中了,但总觉得缺少点什么东西,可视化可操作的界面。zabbix中数据比较分散,不能集中看整个集群情况。或者一个cluster中broker列表,自己写web-console比较耗时耗力,用原型工具画了一些管理界面东西,关键自己也不前端方面技术,这方面

2016-03-17 13:17:11 4864

转载 这才是真正的物流大数据挖掘思路

这才是真正的物流大数据挖掘思路! 2015-8-17 09:00| 发布者: admin| 查看: 108| 评论: 0|来自: PPV课大数据摘要: 物流大数据主要包括运单信息的数据和车辆信息的数据,然而关于运单信息往往涉及商业机密,并且信息分布于不同行业企业内部,不宜公开。因此当前现实的数据条件来看,实业界和学术界的物流大数据主要是关于货运车辆信 ...

2016-03-15 12:35:06 6369

转载 LBS推荐系统的设计方法

摘要:推荐系统是兴趣点系统的核心,本文将重点介绍推荐系统。推荐系统是一个很庞大的课题,该文主要讲述推荐系统的设计方法,包含推荐系统的数学基础和设计原理。在 《程序员》12月刊A中,我们介绍了POI(兴趣点)的设计及其搜索。由于推荐系统是兴趣点系统的核心,所以接下来,我们将介绍推荐系统。推荐系统是一个很庞大的课题,将分成两期予以介绍:本期讲述推荐系统的设计方法,包含推荐系统的数学基础和设

2016-03-13 17:13:23 1160

转载 jvm内存模型和内存分配

jvm内存模型和内存分配1.什么是jvm?(1)jvm是一种用于计算设备的规范,它是一个虚构出来的机器,是通过在实际的计算机上仿真模拟各种功能实现的。(2)jvm包含一套字节码指令集,一组寄存器,一个栈,一个垃圾回收堆和一个存储方法域。(3)JVM屏蔽了与具体操作系统平台相关的信息,使Java程序只需生成在Java虚拟机上运行的目标代码(字节码),就可以

2016-03-12 22:21:29 5708

转载 深入理解JVM—JVM内存模型

我们知道,计算机CPU和内存的交互是最频繁的,内存是我们的高速缓存区,用户磁盘和CPU的交互,而CPU运转速度越来越快,磁盘远远跟不上CPU的读写速度,才设计了内存,用户缓冲用户IO等待导致CPU的等待成本,但是随着CPU的发展,内存的读写速度也远远跟不上CPU的读写速度,因此,为了解决这一纠纷,CPU厂商在每颗CPU上加入了高速缓存,用来缓解这种症状,因此,现在CPU同内存交互就变成了下面的样子

2016-03-12 22:19:26 5091

转载 spark出现task不能序列化错误的解决方法

应用场景:使用JavaHiveContext执行SQL之后,希望能得到其字段名及相应的值,但却出现"Caused by: java.io.NotSerializableException: org.apache.spark.sql.api.java.StructField"的错误,代码如下:JavaSparkContext sc = new JavaSparkContext(conf)

2016-03-10 13:18:08 9950

转载 scala 中json 应用

Beautiful JSON parsing in ScalaYou probably all know JSON - it's becoming the universal data exchange format, slowly but steadily replacing XML. In JavaScript, JSON is a proper first class citiz

2016-03-10 08:35:24 10705 1

转载 JAVA利用HttpClient进行POST请求(HTTPS)

目前,要为另一个项目提供接口,接口是用HTTP URL实现的,最初的想法是另一个项目用JQuery post进行请求。但是,很可能另一个项目是部署在别的机器上,那么就存在跨域问题,而JQuery的post请求是不允许跨域的。这时,就只能够用HttpClient包进行请求了,同时由于请求的URL是HTTPS的,为了避免需要证书,所以用一个类继承DefaultHttpClient类,忽略校验过

2016-03-08 10:21:32 8584

转载 Java堆内存

Java 中的堆是 JVM 所管理的最大的一块内存空间,主要用于存放各种类的实例对象。   在 Java 中,堆被划分成两个不同的区域:新生代 ( Young )、老年代 ( Old )。新生代 ( Young ) 又被划分为三个区域:Eden、From Survivor、To Survivor。   这样划分的目的是为了使 JVM 能够更好的管理堆内存中的对象,包括内存的分配以及回收。 

2016-03-07 08:37:27 1006 1

转载 Scala的sealed关键字

Scala的sealed关键字缘起今天在学习Akka的监控策咯过程中看到了下面一段代码: def supervisorStrategy(): SupervisorStrategy = OneForOneStrategy(maxNrOfRetries = 10, withinTimeRange = 10 seconds) { case _: ArithmeticExcepti

2016-03-05 16:57:43 453

转载 Spark Streaming容错的改进和零数据丢失

Spark Streaming容错的改进和零数据丢失发表于2015-03-04 15:28| 4121次阅读| 来源Databricks| 2 条评论| 作者Tathagata DasSpark开发者大数据数据库 摘要:实时流处理系统必须要能在24/7时间内工作,因此它需要具备从各种系统故障中恢复过来的能力。最开始,Spark Streaming就支持从driver

2016-03-04 14:14:06 387

转载 HDFS文件内容追加(Append)

HDFS文件内容追加(Append)  HDFS设计之处并不支持给文件追加内容,这样的设计是有其背景的(如果想了解更多关于HDFS的append的曲折实现,可以参考《File Appends in HDFS》:http://blog.cloudera.com/blog/2009/07/file-appends-in-hdfs/),但从HDFS2.x开始支持给文件追加内容,可以参

2016-03-04 13:43:16 8460 1

转载 Spark Streaming+Flume对接实验(推送)

Spark Streaming+Flume对接实验软件环境:flume-ng-core-1.4.0-cdh5.0.0spark-1.2.0-bin-hadoop2.3流程说明:Spark Streaming: 使用spark-streaming-flume_2.10-1.2.0插件,启动一个avro source,用来接收数据,并做相应的处理;Flume agent:sou

2016-03-02 14:52:53 1178

转载 Kafka+Spark Streaming+Redis实时系统实践

基于Spark通用计算平台,可以很好地扩展各种计算类型的应用,尤其是Spark提供了内建的计算库支持,像Spark Streaming、Spark SQL、MLlib、GraphX,这些内建库都提供了高级抽象,可以用非常简洁的代码实现复杂的计算逻辑、这也得益于Scala编程语言的简洁性。这里,我们基于1.3.0版本的Spark搭建了计算平台,实现基于Spark Streaming的实时计算。

2016-03-01 12:15:22 1440

转载 Spark Streaming中向flume拉取数据

Spark Streaming中向flume拉取数据分享:0在这里看到的解决方法https://issues.apache.org/jira/browse/SPARK-1729请是个人理解,有问题请大家留言。 其实本身flume是不支持像KAFKA一样的发布/订阅功能的,也就是说无法让spark去flume拉取数据,所以老

2016-03-01 11:15:21 888

2007年下半年系统分析师考试试题分析.doc

2007年下半年系统分析师考试试题分析.doc

2007-11-21

2007年下半年系统分析师上午试卷.doc

2007年下半年系统分析师上午试卷.doc

2007-11-21

2007年下半年系统分析师下午试卷Ⅰ.doc

2007年下半年系统分析师下午试卷Ⅰ.doc

2007-11-21

2007年下半年系统分析师下午试卷Ⅱ.doc

2007年下半年系统分析师下午试卷Ⅱ.doc

2007-11-21

javastart的留言板

发表于 2020-01-02 最后回复 2020-03-08

struts 2 的 select 问题 请指教

发表于 2008-05-04 最后回复 2008-05-20

求助:服务启动失败,ISQL*PLUS怎样以SYS进行连接到指定的数据库?

发表于 2006-10-10 最后回复 2006-10-12

请教:入门问题:NET MANAGER配置的服务器名称问题

发表于 2006-08-15 最后回复 2006-08-30

请问;jdk帮助文档中怎么查找关键字(如+,_,for)

发表于 2006-07-13 最后回复 2006-07-20

请教问题啊:Eclipse3.1退出无缘无故退出

发表于 2006-05-08 最后回复 2006-05-22

各位大侠:MyEclipse 中如何单步调试JSP

发表于 2006-03-13 最后回复 2006-03-16

我安装JBUILDER2006,我启动TOMCAT后,http://localhost:8080/admin/为何打不开?请指教

发表于 2006-01-10 最后回复 2006-01-20

2005 sqlserver 中 VARCHAR在查询分析器怎吗不变为兰色?请大侠帮忙看看

发表于 2005-10-22 最后回复 2005-11-24

SqlCommand的问题,初学者。谢谢指导

发表于 2005-03-22 最后回复 2005-03-23

请问:我载visio中的选择宋体时,将其复制到WORD中,文字怎么变成了?;请指点 谢谢

发表于 2004-11-20 最后回复 2005-01-18

请问:我载visio中的选择宋体时,将其复制到WORD中,文字怎么变成了?;请指点 谢谢

发表于 2004-11-20 最后回复 2004-11-21

c# web 中连接数据库问题,请各位指点,谢谢

发表于 2004-09-09 最后回复 2004-09-09

数据多表连接问题,请指教

发表于 2004-09-01 最后回复 2004-09-04

我们刚开始使用VSS,服务器上已有我的用户,可是还是提示无权限?谢谢指点

发表于 2004-07-27 最后回复 2004-07-27

powerdesigner9.0工具讨论

发表于 2004-03-23 最后回复 2004-03-24

求救:连接服务在作业里不能使用

发表于 2004-02-20 最后回复 2004-02-20

为何menu.htm 的扩展名该为.jsp时为何出现编译错误

发表于 2004-01-30 最后回复 2004-01-30

请教: 我想在一个编辑框中当前的光标位置通过程序插入字符

发表于 2003-12-17 最后回复 2003-12-17

jbuilder 9.0安装问题

发表于 2003-10-30 最后回复 2003-11-01

请教 pb的string 的数据类型和ms sql的varchar的数据类型的问题

发表于 2003-10-29 最后回复 2003-10-29

pb8.0-9.0获取指定目录下的所有的文件和目录

发表于 2003-10-23 最后回复 2003-10-23

陕西省从2003年起系统分析员直接确认为高工

发表于 2003-10-13 最后回复 2003-10-13

怎样才能远程备份数据库

发表于 2003-09-29 最后回复 2003-09-30

请教 使用trigger一行的一个字段引用上一行的一个字段值

发表于 2003-09-17 最后回复 2003-09-18

计算机密码修改后,sql不能启动-请大虾指点

发表于 2003-09-04 最后回复 2003-09-04

高手请指教:jsp中怎样引用javascript的变量

发表于 2003-07-02 最后回复 2003-07-03

菜鸟:请问高手select组件在form提交后获得所有项

发表于 2003-06-28 最后回复 2003-06-28

湖南醴陵花炮厂爆炸系人为制造 死者有重大嫌疑

发表于 2003-06-28 最后回复 2003-06-28

菜鸟问题:有两个select 组件选择一个的一项自动增加到另一个里面

发表于 2003-06-27 最后回复 2003-06-27

菜鸟:select 组件自动增加项数

发表于 2003-06-27 最后回复 2003-06-27

求救:oracle的jdbc的问题

发表于 2003-06-20 最后回复 2003-06-20

求救:jsp树状视图原代码

发表于 2003-06-19 最后回复 2003-06-19

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除