2016年03月_javastart

转载使用Spark MLlib来训练并服务于自然语言处理模型

使用Spark MLlib来训练并服务于自然语言处理模型229 次阅读 - 文章,编程语言本文为数盟原创译文，转载时请务必注明出处为“数盟社区”，并将原文链接置于文首。作者：Michelle Casbon 原文链接在非结构化数据的海洋中识别出关键信息，或实时人机交互的自定义，是客户如何利用我们的技术的一组例子，我们的公司Idibon——一个专注于自

2016-03-31 18:45:47 4399

转载 Apache Spark as a Service

Apache Spark as a ServiceEnterprise Spark on QDSQDS makes Spark enterprise ready, delivering simple, fast, cost effective and secure Spark processing on the AWS Cloud and Google Cloud Pl

2016-03-31 16:35:50 1836

转载 spark 开发环境读取mysql

问题导读1、idea上运行local的spark sql hive流程是怎样的？2、如何安装配置安装 remote metastore？3、如何解决org.apache.spark的问题？在本机上通过idea跑spark sql进行hive查询等操作，一方面可以用于debug spark sql相关源码，另一方面可以加快开发测试进度，比如添加Udf等。这里总共两

2016-03-31 16:34:19 1738

转载在spark中操作mysql数据 ---- spark学习之七

在spark中操作mysql数据 ---- spark学习之七使用spark的 DataFrame 来操作mysql数据。DataFrame是比RDD更高一个级别的抽象，可以应用SQL语句进行操作，详细参考：https://spark.apache.org/docs/latest/sql-programming-guide.html 这里暂时使用spark-shell进行操

2016-03-31 10:18:09 2774

转载 Apache Spark Jobs 性能调优（二）

Apache Spark Jobs 性能调优（二）2016-03-27 12:16:12标签：spark性能在这篇文章中，首先完成在 Part I 中提到的一些东西。作者将尽量覆盖到影响 Spark 程序性能的方方面面，你们将会了解到资源调优，或者如何配置 Spark 以压榨出集群每一分资源。然后我们将讲述调试并发度，这是job性能中最难也是最重要的参数。最后，你将了解到数

2016-03-28 18:39:56 724

转载操作技巧：将 Spark 中的文本转换为 Parquet 以提升性能

操作技巧：将 Spark 中的文本转换为 Parquet 以提升性能列式存储布局（比如 Parquet）可以加速查询，因为它只检查所有需要的列并对它们的值执行计算，因此只读取一个数据文件或表的小部分数据。Parquet 还支持灵活的压缩选项，因此可以显著减少磁盘上的存储。0评论：JESSE F. CHEN, 软件工程师关闭 [x]

2016-03-28 17:30:27 8728 1

转载 Hive数据导入方案—使用ORC格式存储hive数据

目的：将上网日志导入到hive中，要求速度快，压缩高，查询快，表易维护。推荐使用ORC格式的表存储数据思路：因为在hive指定RCFile格式的表，不能直接load数据，只能通过textfile表进行insert转换。考虑先建立txtFile格式内部临时表tmp_testp，使用hdfs fs -put命令向tmp_testp表路径拷贝数据（不是load），再建立ORC格式外部表http_

2016-03-27 17:58:27 20897 1

转载揭开Spark Streaming神秘面纱② - ReceiverTracker 与数据导入

问题导读：1.streaming application 如何兼容众多数据源？2.receivers 是如何分发并启动的？3.receiver 接收到的数据是如何流转的？ Spark Streaming 在数据接收与导入方面需要满足有以下三个特点：兼容众多输入源，包括HDFS, Flume, Kafka, Twitter and Zero

2016-03-27 16:05:48 789

转载 hive0.14-insert、update、delete操作测试

问题导读1.测试insert报错，该如何解决？2.hive delete和update报错，该如何解决？3.什么情况下才允许delete和update？首先用最普通的建表语句建一个表：hive>create table test(id int,name string)row format delimited fields terminat

2016-03-24 18:54:21 2789

转载 Supported syntax of Spark SQL

http://docs.datastax.com/en/latest-dse/datastax_enterprise/spark/sparkSqlSupportedSyntax.html#Supported syntax of Spark SQLThe following syntax defines a SELECT query.SELECT [DISTINCT] [colu

2016-03-24 15:07:35 623

转载 Hadoop Hive基础sql语法

Hadoop Hive基础sql语法Posted on 2015-03-18 09:52 xuzhengzhu 阅读(5073) 评论(0)编辑收藏 1.DDL 操作1.建表2.3.创建简单表4.创建外部表5.建分区表6.建Bucket表7.创建表并创建索引字段ds8.复制一个空表9.显示所有表10.按正条件正则表达

2016-03-24 13:19:36 750

转载深入分析Parquet列式存储格式

深入分析Parquet列式存储格式作者梁堰波发布于 2015年8月7日 | 分享到：微博微信 Facebook Twitter 有道云笔记邮件分享稍后阅读我的阅读清单Parquet是面向分析型业务的列式存储格式，由Twitter和Cloudera合作开发，2015年5月从Apache的孵化器里毕业成为Apache顶级

2016-03-23 22:02:54 888

转载揭开Spark Streaming神秘面纱②-ReceiverTracker 与数据导入

揭开Spark Streaming神秘面纱②-ReceiverTracker 与数据导入Spark Streaming 在数据接收与导入方面需要满足有以下三个特点：兼容众多输入源，包括HDFS, Flume, Kafka, Twitter and ZeroMQ。还可以自定义数据源要能为每个 batch 的 RDD 提供相应的输入数据为适应 7*24h 不间断运行，要有接收数

2016-03-23 18:56:24 759

转载用Spark往Kafka里面写对象设计与实现

Spark和Kafka都是比较常用的两个大数据框架，Spark里面提供了对Kafka读写的支持。默认情况下我们Kafka只能写Byte数组到Topic里面，如果我们想往Topic里面读写String类型的消息，可以分别使用Kafka里面内置的StringEncoder编码类和StringDecoder解码类。那如果我们想往Kafka里面写对象怎么办？　　别担心，Kafka中的kafka.ser

2016-03-21 09:06:42 1838

转载 Kafka Manager - 一个管理 Apache Kafka 的工具

Kafka Manager - 一个管理 Apache Kafka 的工具时间 2015-02-05 08:23:49 佚名原文 https://github.com/yahoo/kafka-manager主题 KafkaA tool for managing Apache Kafka .It supports the following :Ma

2016-03-17 14:31:20 3668

转载 apache kafka监控系列-KafkaOffsetMonitor

apache kafka中国社区QQ群:162272557概览最近kafka server消息服务上线了，基于jmx指标参数也写到zabbix中了，但总觉得缺少点什么东西，可视化可操作的界面。zabbix中数据比较分散，不能集中看整个集群情况。或者一个cluster中broker列表，自己写web-console比较耗时耗力，用原型工具画了一些管理界面东西，关键自己也不前端方面技术，这方面

2016-03-17 13:17:11 4947

转载这才是真正的物流大数据挖掘思路

这才是真正的物流大数据挖掘思路！ 2015-8-17 09:00| 发布者: admin| 查看: 108| 评论: 0|来自: PPV课大数据摘要: 物流大数据主要包括运单信息的数据和车辆信息的数据，然而关于运单信息往往涉及商业机密，并且信息分布于不同行业企业内部，不宜公开。因此当前现实的数据条件来看，实业界和学术界的物流大数据主要是关于货运车辆信 ...

2016-03-15 12:35:06 6897

转载 LBS推荐系统的设计方法

摘要：推荐系统是兴趣点系统的核心，本文将重点介绍推荐系统。推荐系统是一个很庞大的课题，该文主要讲述推荐系统的设计方法，包含推荐系统的数学基础和设计原理。在《程序员》12月刊A中，我们介绍了POI（兴趣点）的设计及其搜索。由于推荐系统是兴趣点系统的核心，所以接下来，我们将介绍推荐系统。推荐系统是一个很庞大的课题，将分成两期予以介绍：本期讲述推荐系统的设计方法，包含推荐系统的数学基础和设

2016-03-13 17:13:23 1356

转载 jvm内存模型和内存分配

jvm内存模型和内存分配1.什么是jvm?（1）jvm是一种用于计算设备的规范，它是一个虚构出来的机器，是通过在实际的计算机上仿真模拟各种功能实现的。（2）jvm包含一套字节码指令集，一组寄存器，一个栈，一个垃圾回收堆和一个存储方法域。（3）JVM屏蔽了与具体操作系统平台相关的信息，使Java程序只需生成在Java虚拟机上运行的目标代码（字节码）,就可以

2016-03-12 22:21:29 5899

我们知道，计算机CPU和内存的交互是最频繁的，内存是我们的高速缓存区，用户磁盘和CPU的交互，而CPU运转速度越来越快，磁盘远远跟不上CPU的读写速度，才设计了内存，用户缓冲用户IO等待导致CPU的等待成本，但是随着CPU的发展，内存的读写速度也远远跟不上CPU的读写速度，因此，为了解决这一纠纷，CPU厂商在每颗CPU上加入了高速缓存，用来缓解这种症状，因此，现在CPU同内存交互就变成了下面的样子

2016-03-12 22:19:26 5174

转载 spark出现task不能序列化错误的解决方法

应用场景：使用JavaHiveContext执行SQL之后，希望能得到其字段名及相应的值，但却出现"Caused by: java.io.NotSerializableException: org.apache.spark.sql.api.java.StructField"的错误，代码如下：JavaSparkContext sc = new JavaSparkContext(conf)

2016-03-10 13:18:08 10267

转载 scala 中json 应用

Beautiful JSON parsing in ScalaYou probably all know JSON - it's becoming the universal data exchange format, slowly but steadily replacing XML. In JavaScript, JSON is a proper first class citiz

2016-03-10 08:35:24 10924 1

转载 JAVA利用HttpClient进行POST请求（HTTPS）

目前，要为另一个项目提供接口，接口是用HTTP URL实现的，最初的想法是另一个项目用JQuery post进行请求。但是，很可能另一个项目是部署在别的机器上，那么就存在跨域问题，而JQuery的post请求是不允许跨域的。这时，就只能够用HttpClient包进行请求了，同时由于请求的URL是HTTPS的，为了避免需要证书，所以用一个类继承DefaultHttpClient类，忽略校验过

2016-03-08 10:21:32 8732

转载 Java堆内存

Java 中的堆是 JVM 所管理的最大的一块内存空间，主要用于存放各种类的实例对象。在 Java 中，堆被划分成两个不同的区域：新生代 ( Young )、老年代 ( Old )。新生代 ( Young ) 又被划分为三个区域：Eden、From Survivor、To Survivor。这样划分的目的是为了使 JVM 能够更好的管理堆内存中的对象，包括内存的分配以及回收。

2016-03-07 08:37:27 1058 1

转载 Scala的sealed关键字

Scala的sealed关键字缘起今天在学习Akka的监控策咯过程中看到了下面一段代码： def supervisorStrategy(): SupervisorStrategy = OneForOneStrategy(maxNrOfRetries = 10, withinTimeRange = 10 seconds) { case _: ArithmeticExcepti

2016-03-05 16:57:43 539

转载 Spark Streaming容错的改进和零数据丢失

Spark Streaming容错的改进和零数据丢失发表于2015-03-04 15:28| 4121次阅读| 来源Databricks| 2 条评论| 作者Tathagata DasSpark开发者大数据数据库摘要：实时流处理系统必须要能在24/7时间内工作，因此它需要具备从各种系统故障中恢复过来的能力。最开始，Spark Streaming就支持从driver

2016-03-04 14:14:06 450

转载 HDFS文件内容追加(Append)

HDFS文件内容追加(Append) 　HDFS设计之处并不支持给文件追加内容，这样的设计是有其背景的（如果想了解更多关于HDFS的append的曲折实现，可以参考《File Appends in HDFS》：http://blog.cloudera.com/blog/2009/07/file-appends-in-hdfs/），但从HDFS2.x开始支持给文件追加内容，可以参

2016-03-04 13:43:16 9081 1

转载 Spark Streaming+Flume对接实验(推送)

Spark Streaming+Flume对接实验软件环境：flume-ng-core-1.4.0-cdh5.0.0spark-1.2.0-bin-hadoop2.3流程说明：Spark Streaming: 使用spark-streaming-flume_2.10-1.2.0插件，启动一个avro source，用来接收数据，并做相应的处理；Flume agent：sou

2016-03-02 14:52:53 1280

转载 Kafka+Spark Streaming+Redis实时系统实践

基于Spark通用计算平台，可以很好地扩展各种计算类型的应用，尤其是Spark提供了内建的计算库支持，像Spark Streaming、Spark SQL、MLlib、GraphX，这些内建库都提供了高级抽象，可以用非常简洁的代码实现复杂的计算逻辑、这也得益于Scala编程语言的简洁性。这里，我们基于1.3.0版本的Spark搭建了计算平台，实现基于Spark Streaming的实时计算。

2016-03-01 12:15:22 1685

转载 Spark Streaming中向flume拉取数据

Spark Streaming中向flume拉取数据分享：0在这里看到的解决方法https://issues.apache.org/jira/browse/SPARK-1729请是个人理解，有问题请大家留言。其实本身flume是不支持像KAFKA一样的发布/订阅功能的，也就是说无法让spark去flume拉取数据，所以老

2016-03-01 11:15:21 970

张伟的专栏