spark中RDD、DataFrame创建及互相转换 1. RDD创建方式parallelize 从一个Seq集合创建RDD。例如: var rdd = sc.parallelize(1 to 10)makeRDD 这种用法和parallelize完全相同例如: var collect = Seq((1 to 10,Seq("slave007.lxw1234.com","slave002.lxw1234.c
presto启动报错:Selector Cannot connect to discovery server for refresh presto主节点日志启动信息出现以下error:2017-07-12T14:31:30.651+0800 ERROR Discovery-0 io.airlift.discovery.client.CachingServiceSelector Cannot connect to discovery server for refresh (presto/general): Lookup of
JDBC元数据操作(一)-- DatabaseMetaData接口详解 1. 前言 在JDBC技术规范中,提供了Connection,Statement,ResultSet这三个开发过程中经常用到的接口。针对与每个接口,JDBC规范提供了相应的接口描述对象,也就是xxxMetaData系列描述对象。DatabaseMetaData和ResultSetMetaData就是两个常用的获取数据库元数据相关信息的接口,本文只讲解DatabaseMetaData接
$(function(){})和$(document).ready(function(){}) document.ready和onload的区别——JavaScript文档加载完成事件页面加载完成有两种事件一是ready,表示文档结构已经加载完成(不包含图片等非文字媒体文件)二是onload,指示页面包含图片等文件在内的所有元素都加载完成。用jQ的人很多人都是这么开始写脚本的:$(function(){// do something});其实这个就是j
R语言常用算法包 1、聚类常用的包: fpc,cluster,pvclust,mclust基于划分的方法: kmeans, pam, pamk, clara基于层次的方法: hclust, pvclust, agnes, diana基于模型的方法: mclust基于密度的方法: dbscan基于画图的方法: plotcluster, plot.hclust基于
使用Spark+Cassandra打造高性能数据分析平台(二) 【导读】笔者( 许鹏)看Spark源码的时间不长,记笔记的初衷只是为了不至于日后遗忘。在源码阅读的过程中秉持着一种非常简单的思维模式,就是努力去寻找一条贯穿全局的主线索。在笔者看来,Spark中的线索就是如何让数据的处理在分布式计算环境下是高效,并且可靠的。在对Spark内部实现有了一定了解之后,当然希望将其应用到实际的工程实践中,这时候会面临许多新的挑战,比如选取哪个作为数据仓库,是HB
SparkR:数据科学家的新利器 摘要:R是数据科学家中最流行的编程语言和环境之一,在Spark中加入对R的支持是社区中较受关注的话题。作为增强Spark对数据科学家群体吸引力的最新举措,最近发布的Spark 1.4版本在现有的Scala/Java/Python API之外增加了R API(SparkR)。SparkR使得熟悉R的用户可以在Spark的分布式计算平台基础上结合R本身强大的统计分析功能和丰富的第三方扩展包,对大规模数
R语言包在linux上的安装、卸载 有关install.packages()函数的详见:R包 package 的安装(install.packages函数详解)R的包(package)通常有两种:1 binary package:这种包属于即得即用型(ready-to-use),但是依赖与平台,即Win和Linux平台下不同。2 Source package: 此类包可以跨平台使用,但用之前需要处理或者编译(co
R语言常用包分类 1、聚类常用的包: fpc,cluster,pvclust,mclust基于划分的方法: kmeans, pam, pamk, clara基于层次的方法: hclust, pvclust, agnes, diana基于模型的方法: mclust基于密度的方法: dbscan基于画图的方法: plotcluster, plo
25个Java机器学习工具&库 1. Weka集成了数据挖掘工作的机器学习算法。这些算法可以直接应用于一个数据集上或者你可以自己编写代码来调用。Weka包括一系列的工具,如数据预处理、分类、回归、聚类、关联规则以及可视化。2.Massive Online Analysis(MOA)是一个面向数据流挖掘的流行开源框架,有着非常活跃的成长社区。它包括一系列的机器学习算法(分类、回归、聚类、异常检测、概念漂移检测和推荐系统)和
Apache Spark入门攻略 【编者按】时至今日,Spark已成为大数据领域最火的一个开源项目,具备高性能、易于使用等特性。然而作为一个年轻的开源项目,其使用上存在的挑战亦不可为不大,这里为大家分享SciSpike软件架构师Ashwini Kuntamukkala在Dzone上进行的Spark入门总结(虽然有些地方基于的是Spark 1.0版本,但仍然值得阅读)—— Apache Spark:An Engine for L
java反射详解 本篇文章依旧采用小例子来说明,因为我始终觉的,案例驱动是最好的,要不然只看理论的话,看了也不懂,不过建议大家在看完文章之后,在回过头去看看理论,会有更好的理解。下面开始正文。【案例1】通过一个对象获得完整的包名和类名123456789101112131415package Reflect;
Spring + Jersey构建发布Restful WebService Spring和maven的搭建参考相关文档,本文只介绍与jersey有关配置。环境:Eclipse4.1JDK1.6OSwin7Maven3.1spring 2.5.6jers
spring3.2+mybatis3 的applicationContext详细配置 xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns:context="http://www.springframework.org/schema/context" xmlns:aop="http://www.springframework.org/schema/aop" xmlns:tx="http
Spring 实现AOP的4种方式 Spring实现AOP的4种方式 先了解AOP的相关术语:1.通知(Advice):通知定义了切面是什么以及何时使用。描述了切面要完成的工作和何时需要执行这个工作。2.连接点(Joinpoint):程序能够应用通知的一个“时机”,这些“时机”就是连接点,例如方法被调用时、异常被抛出时等等。3.切入点(Pointcut)通知定义了切面要发生的“故事”和时间
Hbase属性说明及与关系型数据库区别 1. HBase有哪些基本的特征?2. HBase相对于关系数据库能解决的问题是什么?3. HBase的数据模型是什么?如何表述?有哪些操作形式?4. HBase的模式Schema设计的一些概念和原则5. HBase的拓扑结构是什么样的?6. HBase与Cassender的比较?1. HBase有哪些基本的特征?HBase是类似
iBatis2 SqlMap中常用sql语句 本来我也不喜欢iBatis,那是因为我当时还不怎么会用它,现在我想说,iBatis是个好东西,不信你试试看。下面是我在项目实践中对iBatis的一个小总结,希望帮助众多在疲于iBatis编码而无暇思考的苦工们找到一些偷懒的机会。 SqlMap的配置是iBatis中应用的核心。这部分任务占据了iBatis开发的70的工作量。1、命名空间: ,在此空间外要引用此空
Java EE发展史 前言 最近的这段时间一直在学习Java EE,刚刚完成了从0到1的蜕变,所以顺便整理一下我所了解到的Java EE,给刚入门学习的新人一些头绪,而所谓“启示录”,就是这个意思。一.Java EE是什么? Java EE(Java Enterprise Edition)是一种企业级应用的软件架构,同时是一种思想,一套规范。二.Java EE的发展史
Eclipse4.4 安装java反编译插件Eclipse Class Decompiler 一、在线安装方式: Eclipse Class Decompiler整合了目前最好的2个Java反编译工具Jad和JD-Core,并且和Eclipse Class Viewer无缝集成,能够很方便的使用本插件查看类库源码,以及采用本插件进行Debug调试。Eclipse Class Decompiler插件更新站点: http://feeling.sourceforge.ne
Centos6 源码部署MySQL5.6 mysql从5.5版本开始,不再使用./configure编译,而是使用cmake编译器,具体的cmake编译参数可以参考mysql官网文档(※ 非常重要)http://dev.mysql.com/doc/refman/5.6/en/source-configuration-options.htmlmysql-5.6.16.tar.gz源码包下载地址:http://dev.mysq