yakcy-CSDN博客

原创 spark中RDD、DataFrame创建及互相转换

1. RDD创建方式parallelize 从一个Seq集合创建RDD。例如： var rdd = sc.parallelize(1 to 10)makeRDD 这种用法和parallelize完全相同例如： var collect = Seq((1 to 10,Seq("slave007.lxw1234.com","slave002.lxw1234.c

2017-10-27 11:56:43 5489

原创 presto启动报错：Selector Cannot connect to discovery server for refresh

presto主节点日志启动信息出现以下error：2017-07-12T14:31:30.651+0800 ERROR Discovery-0 io.airlift.discovery.client.CachingServiceSelector Cannot connect to discovery server for refresh (presto/general): Lookup of

2017-07-18 16:40:03 6003 2

转载 JDBC元数据操作（一）-- DatabaseMetaData接口详解

1. 前言在JDBC技术规范中，提供了Connection，Statement,ResultSet这三个开发过程中经常用到的接口。针对与每个接口，JDBC规范提供了相应的接口描述对象，也就是xxxMetaData系列描述对象。DatabaseMetaData和ResultSetMetaData就是两个常用的获取数据库元数据相关信息的接口，本文只讲解DatabaseMetaData接

2017-02-15 14:08:59 1026

原创 $(function(){})和$(document).ready(function(){})

document.ready和onload的区别——JavaScript文档加载完成事件页面加载完成有两种事件一是ready，表示文档结构已经加载完成（不包含图片等非文字媒体文件）二是onload，指示页面包含图片等文件在内的所有元素都加载完成。用jQ的人很多人都是这么开始写脚本的：$(function(){// do something});其实这个就是j

2016-04-13 09:24:25 697

原创 R语言常用算法包

1、聚类常用的包： fpc，cluster，pvclust，mclust基于划分的方法: kmeans, pam, pamk, clara基于层次的方法: hclust, pvclust, agnes, diana基于模型的方法: mclust基于密度的方法: dbscan基于画图的方法: plotcluster, plot.hclust基于

2016-03-31 10:28:30 5122

转载使用Spark+Cassandra打造高性能数据分析平台（二）

【导读】笔者（许鹏）看Spark源码的时间不长，记笔记的初衷只是为了不至于日后遗忘。在源码阅读的过程中秉持着一种非常简单的思维模式，就是努力去寻找一条贯穿全局的主线索。在笔者看来，Spark中的线索就是如何让数据的处理在分布式计算环境下是高效，并且可靠的。在对Spark内部实现有了一定了解之后，当然希望将其应用到实际的工程实践中，这时候会面临许多新的挑战，比如选取哪个作为数据仓库，是HB

2016-02-01 10:02:33 3497

摘要：R是数据科学家中最流行的编程语言和环境之一，在Spark中加入对R的支持是社区中较受关注的话题。作为增强Spark对数据科学家群体吸引力的最新举措，最近发布的Spark 1.4版本在现有的Scala/Java/Python API之外增加了R API（SparkR）。SparkR使得熟悉R的用户可以在Spark的分布式计算平台基础上结合R本身强大的统计分析功能和丰富的第三方扩展包，对大规模数

2016-01-18 20:21:43 871

原创 R语言包在linux上的安装、卸载

有关install.packages()函数的详见：R包 package 的安装（install.packages函数详解）R的包（package）通常有两种：1 binary package：这种包属于即得即用型（ready-to-use），但是依赖与平台，即Win和Linux平台下不同。2 Source package: 此类包可以跨平台使用，但用之前需要处理或者编译（co

2016-01-18 19:07:21 10313

原创 R语言常用包分类

1、聚类常用的包： fpc，cluster，pvclust，mclust基于划分的方法: kmeans, pam, pamk, clara基于层次的方法: hclust, pvclust, agnes, diana基于模型的方法: mclust基于密度的方法: dbscan基于画图的方法: plotcluster, plo

2016-01-18 09:00:18 1032

转载 25个Java机器学习工具&库

1. Weka集成了数据挖掘工作的机器学习算法。这些算法可以直接应用于一个数据集上或者你可以自己编写代码来调用。Weka包括一系列的工具，如数据预处理、分类、回归、聚类、关联规则以及可视化。2.Massive Online Analysis（MOA）是一个面向数据流挖掘的流行开源框架，有着非常活跃的成长社区。它包括一系列的机器学习算法（分类、回归、聚类、异常检测、概念漂移检测和推荐系统）和

2016-01-05 20:44:41 730

转载 Apache Spark入门攻略

【编者按】时至今日，Spark已成为大数据领域最火的一个开源项目，具备高性能、易于使用等特性。然而作为一个年轻的开源项目，其使用上存在的挑战亦不可为不大，这里为大家分享SciSpike软件架构师Ashwini Kuntamukkala在Dzone上进行的Spark入门总结（虽然有些地方基于的是Spark 1.0版本，但仍然值得阅读）—— Apache Spark：An Engine for L

2015-12-29 09:21:37 839

转载 java反射详解

本篇文章依旧采用小例子来说明，因为我始终觉的，案例驱动是最好的，要不然只看理论的话，看了也不懂，不过建议大家在看完文章之后，在回过头去看看理论，会有更好的理解。下面开始正文。【案例1】通过一个对象获得完整的包名和类名123456789101112131415package Reflect;

2015-12-06 19:58:59 640

原创 Spring + Jersey构建发布Restful WebService

Spring和maven的搭建参考相关文档，本文只介绍与jersey有关配置。环境：Eclipse4.1JDK1.6OSwin7Maven3.1spring 2.5.6jers

2015-11-03 14:28:37 1739

原创 spring3.2+mybatis3 的applicationContext详细配置

xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns:context="http://www.springframework.org/schema/context" xmlns:aop="http://www.springframework.org/schema/aop" xmlns:tx="http

2015-10-12 15:48:48 955

转载 Spring 实现AOP的4种方式

Spring实现AOP的4种方式先了解AOP的相关术语:1.通知(Advice):通知定义了切面是什么以及何时使用。描述了切面要完成的工作和何时需要执行这个工作。2.连接点(Joinpoint):程序能够应用通知的一个“时机”，这些“时机”就是连接点，例如方法被调用时、异常被抛出时等等。3.切入点(Pointcut)通知定义了切面要发生的“故事”和时间

2015-09-24 15:16:14 598

转载 Hbase属性说明及与关系型数据库区别

1. HBase有哪些基本的特征？2. HBase相对于关系数据库能解决的问题是什么？3. HBase的数据模型是什么？如何表述？有哪些操作形式？4. HBase的模式Schema设计的一些概念和原则5. HBase的拓扑结构是什么样的？6. HBase与Cassender的比较？1. HBase有哪些基本的特征？HBase是类似

2015-09-22 21:53:55 9827

原创 iBatis2 SqlMap中常用sql语句

本来我也不喜欢iBatis，那是因为我当时还不怎么会用它，现在我想说，iBatis是个好东西，不信你试试看。下面是我在项目实践中对iBatis的一个小总结，希望帮助众多在疲于iBatis编码而无暇思考的苦工们找到一些偷懒的机会。 SqlMap的配置是iBatis中应用的核心。这部分任务占据了iBatis开发的70的工作量。1、命名空间：，在此空间外要引用此空

2015-07-14 16:31:18 2081 2

转载 Java EE发展史

前言最近的这段时间一直在学习Java EE，刚刚完成了从0到1的蜕变，所以顺便整理一下我所了解到的Java EE，给刚入门学习的新人一些头绪，而所谓“启示录”，就是这个意思。一.Java EE是什么？ Java EE（Java Enterprise Edition）是一种企业级应用的软件架构，同时是一种思想，一套规范。二.Java EE的发展史

2015-07-05 16:50:46 2407

原创 Eclipse4.4 安装java反编译插件Eclipse Class Decompiler

一、在线安装方式： Eclipse Class Decompiler整合了目前最好的2个Java反编译工具Jad和JD-Core，并且和Eclipse Class Viewer无缝集成，能够很方便的使用本插件查看类库源码，以及采用本插件进行Debug调试。Eclipse Class Decompiler插件更新站点： http://feeling.sourceforge.ne

2015-06-30 13:32:08 7009

原创 Centos6 源码部署MySQL5.6

mysql从5.5版本开始，不再使用./configure编译，而是使用cmake编译器，具体的cmake编译参数可以参考mysql官网文档(※ 非常重要)http://dev.mysql.com/doc/refman/5.6/en/source-configuration-options.htmlmysql-5.6.16.tar.gz源码包下载地址：http://dev.mysq

2015-06-28 10:09:16 975

原创 Spring在代码中获取bean的几种方式

方法一：在初始化时保存ApplicationContext对象方法二：通过Spring提供的utils类获取ApplicationContext对象方法三：继承自抽象类ApplicationObjectSupport 方法四：继承自抽象类WebApplicationObjectSupport 方法五：实现接口ApplicationContextAware 方法六：通过Spr

2015-06-12 10:08:08 1264

转载 jstl标签配置及使用

一．配置 JSTL包括两个 JAR 文件， jstl.jar 和 standard.jar 。原文引入：二． Core 标签库Core 标签库主要包括了一般用途的标签、条件标签、迭代标签

2015-05-28 19:40:27 575

原创 Hibernate4 session中的createCriteria方法

1.定义Hibernate工具类HibernateUtil，如下public class HibernateUtil { private static SessionFactory sessionFactory; /** * * @Description: 获取会话工厂sessionFactory * @author kexi.yan * @date 201

2015-05-08 11:32:31 9033

原创 Hibernate4之getCurrentSession和openSession

在一个应用程序中，如果DAO层使用Spring的hibernate模板，通过Spring来控制session的生命周期，则首选getCurrentSession 使用Hibernate的大多数应用程序需要某种形式的“上下文相关的”session，特定的session在整个特定的上下文范围内始终有效。然而，对不同类型的应用程序而言，要给为什么是组成这种“上下文”下一个定义通常是困难的；不同的

2015-05-08 10:03:02 2973

转载 java（JDBC连接数据库）[完整版封装]

import java.sql.CallableStatement; import java.sql.Connection; import java.sql.DriverManager; import java.sql.PreparedStatement; import java.sql.ResultSet; import java.sql.ResultSetMeta

2015-04-20 15:17:42 714

原创 Spring MVC详解

SpringMVC中Controller的方法参数可以是Integer，Double，自定义对象，ServletRequest，ServletResponse，ModelAndView等等，非常灵活。本文将分析SpringMVC是如何对这些参数进行处理的，使读者能够处理自定义的一些参数。现象本文使用的demo基于maven。我们先来看一看对应的现象。 @

2015-04-20 14:45:16 920

转载 MapReduce工作原理详解

前段时间我们云计算团队一起学习了hadoop相关的知识，大家都积极地做了、学了很多东西，收获颇丰。可是开学后，大家都忙各自的事情，云计算方面的动静都不太大。呵呵~不过最近在胡老大的号召下，我们云计算团队重振旗鼓了，希望大伙仍高举“云在手，跟我走”的口号战斗下去。这篇博文就算是我们团队“重启云计算”的见证吧，也希望有更多优秀的文章出炉。汤帅，亮仔，谢总•••搞起来啊！呵呵，下面我们进入正题，

2015-03-21 23:15:00 669

原创 eclipse中git详细使用教程

由于国外的github使用不是很方便，果断用国内oschina的git，使用方法完全一致，你只需要在http://git.oschina.net/注册账号,在windows客户端安装相关软件：1.git客户端:Git-1.9.5-preview20141217.exe2.git客户端外壳:TortoiseGit-1.8.12.0-64bit.msi3.git汉化包:TortoiseGi

2015-01-29 13:05:32 47520 2

原创 java中jvm内存详解

在一些规模稍大的应用中，Java虚拟机（JVM）的内存设置尤为重要，想在项目中取得好的效率，GC（垃圾回收）的设置是第一步。PermGen space：全称是Permanent Generation space.就是说是永久保存的区域,用于存放Class和Meta信息,Class在被Load的时候被放入该区域Heap space：存放Instance。GC(Garbage Coll

2015-01-28 20:54:25 858

原创 Jaxb中的注解关键字说明

一.Jaxb处理java对象和xml之间转换常用的annotation有：@XmlType@XmlElement@XmlRootElement@XmlAttribute@XmlAccessorType@XmlAccessorOrder@XmlTransient@XmlJavaTypeAdapter　二.常用annotation使用说明 @XmlType　　@Xm

2015-01-21 11:38:24 1117

转载 Hadoop-thrift介绍及应用

一、概述hadoop是目前使用比较多的分布式文件系统，由于hadoop是用Java写的，对非Java程序人员，不好直接使用它的接口，不过它提供了thrift接口服务器，因此也可以采用其他语言来编写hadoop的客户端，本文主要介绍的是它C++客户端的使用。目前hadoop稳定版是1.2.1，thrift接口文件位于/src/contrib/thriftfs/if/hadoopfs.thri

2015-01-15 14:02:09 900

原创 Spring applicationContext.xml详解

web.xml文件是用来初始化配置信息：比如welcome页面、servlet、servlet-mapping、filter、listener、启动加载级别等。当你的web工程没用到这些时，你可以不用web.xml文件来配置你的Application。每个xml文件都有定义它书写规则的Schema文件，也就是说javaEE的定义web.xml所对应的xml Schema文件中定义了多少种标

2015-01-12 15:27:10 849

原创 Centos6 使用yum安装mysql

查看系统是否安装了MySQL -->使用命令： rpm -qa | grep mysql卸载已安装的MySQL-->使用命令： #rpm -e --nodeps mysql-libs-* 将/var/lib/mysql文件夹下的所有文件都删除MySQL安装：执行命令：安装mysql-server yum -y install mysql-server安装完成后执行

2014-12-27 21:20:56 827

转载 Java Servlet介绍与实例

什么是Servlet 在Web服务器端加载并运行的Java应用程序具体运行在Servlet引擎管理的JVM上。Servlet容器负责Servlet和用户的通信以及调用Servlet的方法。Servlet和用户的通信采用请求/响应模式。用于以动态响应客户机请求形式扩展Web服务器（Web Container）的功能。Servlet是开发服务器端应用程序的一个很好选择， Ser

2014-12-14 21:40:59 835

转载 Java Socket编程标准范例（多线程）

服务器端（Server）非多线程[java] view plaincopypackage com.zeph.serverclient; import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader

2014-12-09 20:57:36 1085 1

原创 Java 调用webservice接口测试

<!-- Licensed to the Apache Software Foundation (ASF) under one or more contributor license agreements. See the NOTICE file distributed with this work for additional information regarding copyrigh

2014-12-04 18:49:28 25384 1

原创 WSDL自动生成Web Service java 客户端

引用：最近做系统间数据导入导出时需要用到web service，所以需要通过wsdl生成java客户端来读取数据。方法一：使用xfire eclipse plugin生成java客户端1 安装xfire eclipse plugin，update site： Java代码 http://dist.codehaus.org/xfi

2014-12-03 14:58:29 3151

转载 webservice远程调用详解

webservice是跨编程语言和跨平台的远程调用技术。常见的远程调用技术还有RMI，因为webservice跨平台和跨编程语言，因此应用更广泛，但性能略低。远程调用：一台计算机a上的一个程序可以调用另一台计算机b上的一个对象的方法。关于Java webService框架，主要有AXIS、XFire、CXF，还有Java自带的JAX-WS（必须JDK6以上环境）。 SO

2014-12-03 14:38:15 3799

原创 SWT基本类说明

实例变量也被翻译成"域"和"成员变量"。在面向数据库的实体类中叶被称为"属性"或"字段"的变量。Hibernate中也称为POJO，即简单原始的Java变量。使用变量的一般原则是：尽量使变量的有效范围最小化，即优先考虑用局部变量。其次是实例变量，最后才是类变量。还有一种常量的写法，比类常量前多了一个final，如下： final static int ALL_CL

2014-11-26 11:05:17 3620

转载单机用户下修改root密码及grub加密

在上一篇随笔里面详细讲解了Linux系统的启动过程 (Linux学习之CentOS(二十一)--Linux系统启动详解)，我们知道Linux系统的启动级别一共有6种级别，通过 /etc/inittab 这个文件我们就能看到：[root@xiaoluo ~]# cat /etc/inittab# inittab is only used by upstart for the def

2014-11-21 12:08:26 899