自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(65)
  • 收藏
  • 关注

原创 HDP

 ahttp://www.cnblogs.com/daizhuacai/archive/2013/01/17/2865132.html 首先用adduser命令添加一个普通用户,命令如下:#adduser tommy  //添加一个名为tommy的用户#passwd tommy   //修改密码方法二:修改 /etc/sudoers 文件,找到下面一行,在root下面添加一行,...

2017-03-12 08:57:59 197

原创 OpenTSDB相关

好文章:https://dzone.com/articles/building-rest-service-scalahttp://liubin.org/blog/2016/03/05/tsdb-opentsdb/ ehcache.xml <?xml version="1.0" encoding="UTF-8"?><ehcache xmlns:xsi...

2017-01-02 18:03:43 162

原创 Alluxio介绍

附件参考资料:http://blog.csdn.net/lipeng_bigdata/article/details/50947891

2016-12-25 20:51:59 308

原创 基于SAML2 SSO的调研

参考资料: 原理流程http://www.ibm.com/developerworks/cn/websphere/library/techarticles/1111_luol_sso/1111_luol_sso.htmlhttp://blog.csdn.net/csethcrm/article/details/20694993 opensaml插件https://wi...

2016-11-22 21:44:58 736

将博客搬至CSDN

最近准备把上面写的东西搬到CSDN上了

2016-10-07 17:43:04 107

SQLServer数据库文件mdf和ldf的导入及导出

通常导出SQLServer数据库的方式有两种:1.以SQL文件的方式导出2.以mdf和ldf数据库文件的方式导出 SQL文件的导出方式,通常需要自定义列与列之间的分隔符,因为默认的分隔符",",很可能出现在列的值中下面介绍一下导出和导入mdf和ldf的方式在sqlserver management studio进行如下操作1.导出数据库   1.1 脱机,(选择的数据...

2016-10-03 09:01:27 7290 2

Spark将RDD转换成DataFrame的两种方式

介绍一下Spark将RDD转换成DataFrame的两种方式。1.通过是使用case class的方式,不过在scala 2.10中最大支持22个字段的case class,这点需要注意2.是通过spark内部的StructType方式,将普通的RDD转换成DataFrame装换成DataFrame后,就可以使用SparkSQL来进行数据筛选过滤等操作下面直接代码说话[...

2016-10-01 22:32:01 1391

机器学习工程师需要了解的十种算法

记录一下,有时间的时候研究,挺感兴趣的http://www.iteye.com/news/31803

2016-09-18 10:31:32 97

Spark之RDD基础

RDD概念:RDD是只读的,分区记录的集合RDD支持基于工作集的应用,同时具有数据流模型的特点:自动容错位置感知性调度可伸缩性速度快的原因:RDD允许用户在执行多个查询时显式的将工作集缓存在内存中,后续的查询能够重用工作集RDD的5个主要属性1.一组分片(Partition),数据集的基本组成单位. 每个Partition都会被逻辑映射成Block...

2016-09-18 10:29:57 84

Flume-ng 1.6启动过程源码分析(二)

阅读Flume源码后发现,Flume有两个顶级的接口:1. ConfigurationProvider接口,提供了getConfiguration()方法,用于获取不同组件的配置。2. LifecycleAware接口,提供了三个方法,start() stop()和getLifecycleState(),分别用于组件的启动 停止以及组件在生命周期中处的状态,可以说这个接口贯穿于整个Fl...

2016-09-04 11:25:50 188

Flume-ng 1.6启动过程源码分析(一)

 启动部分主要分为四块 命令行参数的载入,这部分用的common cli实现对于可选的zk配置的加载对于flume-ng配置的加载,这里利用EventBus实现配置文件动态加载组件的启动简单介绍下EventBus,它是Guava提供的消息发布-订阅类库,机制与观察者模式类似。 下面主要介绍上面提到的第3和4部分。首先flu...

2016-08-22 19:36:42 120

flume使用hdfs sink时需要注意的几点

最近接触了flume,这个日志收集器在扩展性方面确实很便捷,相信这与其架构的设计有密切的关系。书归正传,这次用到了hdfs sink在使用时还是有几点需要注意的,在此和大家分享一下。 第一部分windows下搭建单机的hdfs如果你和我一样没有linux的测试环境,想在windows搭建hdfs,可以参考下面的链接,笔者就是参照这篇文章进行部署的http://blog.csdn....

2016-08-20 21:14:43 808

基于flume-ng抓取mysql数据到kafka

flume是一个日志收集器,更多详细的介绍可以参照官网:http://flume.apache.org/ 在apache flume的官网上没有找到sql数据源数据抓取的source,可以利用github上的plugin插件:https://github.com/keedio/flume-ng-sql-source,1.4.3版本基于hibernate实现,已可以适配所有的关系型数据...

2016-08-14 19:17:15 670

利用scala的trait特性实现简单AOP

最近开始系统的研究下scala trait字面意思是特质或者特征,这里翻译成特征比较合适。scala中trait的意义和java中接口很类似,但是trait支持实现,也就是说在scala的trait中方法可以是抽象方法,也可以是带实现的非抽象方法。另一个重要的与java interface的不同点,scala可以在一个class实例化的时候通过with关键字混合进一个trait。wi...

2016-06-30 14:38:00 181

自然语言处理之分词器ansj和hanlp介绍

1.ansjansj是ictclas(中科院分词)的java实现.基本上重写了所有的数据结构和算法.词典是用的开源版的ictclas所提供的.并且进行了部分的人工优化内存中中文分词每秒钟大约100万字(速度上已经超越ictclas)文件读取分词每秒钟大约30万字准确率能达到96%以上目前实现了: 1.中文分词 2.中文姓名识别 3.用户自定义词典可以应用到自然语言处理等方面,适用于对分词效果要求...

2016-05-11 12:56:10 500

基于自然语言关键词的打分器

最近在做自然语言处理,当句子中有多个关键字时,就无法简单的通过关键字进行分类,需要筛选出句子的核心关键字,基于这个思想,自己开发了一个打分器,得分多高的关键词,即为该句的核心关键词 该打分器主要是为自然句子中的关键字进行打分,通过分数的高低选举出关键字的重要度下面通过简单的例子说明,如句子: 电脑异响,怀疑是硬盘有问题,查为风扇的故障,更换风扇后正常.其中筛选出和电脑相关的词汇设...

2016-05-10 16:44:24 367

常用git命令积累汇总

以下是最近用git cmd常用到的命令项目目录:cd Project_Dir #初始化gitgit init #添加要提交的文件如README.md,'.'代表当前目录的所有文件git add README.mdgit add . #查看文件修改状态git status #git提交代码 带上注释git commit -m "update readme....

2016-03-25 11:33:40 92

zookeeper注册服务与netty的简单结合应用

简单介绍一下zookeeper和nettyNetty:流行的NIO Socket通信框架,很多开源软件如hadoop tachyon spark都使用Netty作为底层通信框架Zookeeper:分布式的,开放源码的分布式应用程序协调服务,hadoop hbase等开源分布式系统的重要组件 应用场景描述:利用Zookeeper的服务注册与发现功能,实现Netty通信集群的简单高可用。...

2016-02-15 10:36:21 594

开启google人工智能学习Tensorflow之旅(一)

简介TensorFlowTensorFlow是谷歌基于DistBelief进行研发的第二代人工智能学习系统。Tensor(张量)意味着N维数组,Flow(流)意味着基于数据流图的计算,这和当前很多主流机器学习框架类似,如spark,。TensorFlow为张量从图象的一端流动到另一端计算过程。TensorFlow是将复杂的数据结构传输至人工智能神经网中进行分析和处理过程的系统,目...

2016-01-29 13:47:21 326

Spark1.6新特性简介及个人的理解

新的Spark1.6版本发布了,之前使用Spark1.4版本的SparkSQL,这次发布后主要关注了1.6版本的SparkSQL特性参阅了官方的Release Note和jira issue detail以及之前在使用1.4.0中的经验,跟大家分享一下Spark1.6部分新加的几个特性。 1. Dataset API目前Spark有两大类API:RDD API(Spark Core),D...

2016-01-11 10:48:43 144

Maven构建SpringMVC项目详解

Eclipse版本: Eclipse Java EE IDE for Web Developers. Version: Kepler Service Release 2   上述版本的Eclipse中已经包含了基本的maven插件,如果你使用的eclipse中没有,可以通过下面的地址在Eclipse Help->Install New Software 中安...

2015-12-22 15:39:10 126

CXF集成Spring

最近调研了对webservice实现比较好的框架,觉得Apache的CXF不错.做了一个简单的技术预研,其中主要包括2方面:1.与Spring的集成,2.安全性方面即WS-Security首先与Spring的集成可以通过ContextLoaderListener去装配bean在WS-Security方面可以与WSS4J集成WSS4J支持多种模式:XML Security:1.XML Signat...

2015-12-09 10:11:08 96

记一次Spark集群查询速度变慢的问题调查

现象:针对某张表(下文中用A表代替)的查询速度慢了6s   简单介绍一下系统的架构:Spark + Tachyon + glusterfs+mesos,其中glusterfs负责tachyon数据的持久化,Spark从tachyon上加载数据,mesos负责Spark任务调度 通过对比分析Spark:4040页面提供的任务执行信息发现,A表的Spark任务中,出现了Loc...

2015-11-24 10:50:00 766

SparkSQL Driver ClassNotFoundException的解决方案

在使用SparkSQL连接关系型数据库时,需要通过JDBC来加载对应数据库的驱动,如SQLServer JDBC连接用到的sqljdbc4.jar,处理时经常会遇到sparksql抛出jdbc的驱动程序ClassNotFoundException,类似下面的错误提示       Exception in thread "main" java.lang.ClassNotFoundException...

2015-11-18 10:57:04 779

SparkSQL操作sqlserver和postgresql示例

def main(agrs: Array[String]){ //configuration and new Spark Context val conf = new SparkConf().setAppName("SparkSQL_Select_Table") .set("spark.driver.allowMultipleContexts", "t...

2015-11-03 20:15:03 488

quartz中设置Job不并发执行

System.out.println("不知道该怎么删除这个Java代码框了");使用quartz框架可以完成定时任务处理即Job,比如有时候我们设置1个Job每隔5分钟执行1次,后来会发现当前Job启动的时候上一个Job还没有运行结束,这显然不是我们期望的,此时可以设置quartz中的参数,来确保Job不并发执行 1. quartz未与Spring结合//可以通过在实现Job...

2015-10-29 20:07:45 1798 1

SparkSQL中DataFrame registerTempTable源码浅析

dataFrame.registerTempTable(tableName);  最近在使用SparkSQL时想到1万条数据注册成临时表和1亿条数据注册成临时表时,效率上是否会有很大的差距,也对DataFrame注册成临时表到底做了哪些比较好奇,拿来源码拜读了下相关部分,记录一下。 临时表的生命周期是和创建该DataFrame的SQLContext有关系的,SQLContext生命周期结...

2015-10-09 13:56:16 504

使用Maven为代码构建依赖包

用Maven来管理代码的依赖包,这种方式还是不错的,jar包的依赖关系及下载都由Maven替我们完成,很方便 用Maven构建依赖包的主要步骤:1.双击Pom.xml在Dependencies选项卡中点击add,输入对应信息后点击确定  2. 切换到Dependencies Hierarchy会发现自动下载了json-lib的依赖包   3....

2015-09-07 20:40:31 150

sqoop1.4.5将mysql中的数据导入到HBase中

什么是sqoop?关于发音,困扰了我很久,一番类比之后,决定读为“丝库坡”,英语老师看见了会不会疯掉,呵呵,我就是这样一个逗x。 书归正传:Sqoop【SQL-To-Hadoop】是将关系型数据库的数据(MySQL or Oracle or Postgre)导入到HDFS及其子系统中(Hive, HBase)的工具 sqoop有两个版本,sqoop1和sqoop2,两者特性...

2015-04-20 10:44:14 233

工作的感受

       最近的三个月一直很忙,没有时间去更新技术上的文档,静下心来写下这篇文章是想通过跳槽的事情将自己的一些经验记录下来。       从事技术开发快4年的时间,毕业后就在家乡大连工作,现在有幸在一家小公司上班,老板喜欢技术,对我们技术人员挺好的,做的相对比较先进的技术大数据,分布式存储及kvm虚拟化相关的,同事也相处的不错。前几天去一家初创的金融背景公司,面了个试,为什么要去面试呢,...

2015-03-21 11:02:42 79

原创 js使用parseInt时的易错点

今天写js的时候遇到parseInt字符串出错,使用parseInt(string, radix);转对于parseInt("01")到parseInt("07");都能得到正确的结果,但如果是parseInt("08") 或parseInt("09")则返回0;首先看parseInt语法:parseInt(string, radix);其中string为要转换的字符串,radi...

2014-10-27 16:27:26 303

Java产生一段范围内的随机数及毫秒到日期间的相互转换

/** * 产生一段范围内的随机数 */ //方法一:把范围内的数赋值到数组内,然后随机取得数组下标 int [] seed = new int[50]; int j=0; for(int i=30;i<80;i++){ seed[j]=i; j++; } System.out.println...

2014-07-17 10:20:29 270

Java读取classpath中配置文件的小例子

import java.io.IOException;import java.io.InputStream;import java.util.Properties;public class PropLoad { private static Properties p = new Properties(); static { InputStream i...

2014-07-03 09:29:44 458

原创 Starting NFS daemon failed的错误解决

重启rpcbind服务service rpcbind restart再重启nfs服务service nfs restart

2014-06-05 18:28:52 944

Mysql ndbcluster

mysql ndbcluster 官方文档http://dev.mysql.com/doc/refman/5.1/zh/ndbcluster.html

2014-04-25 16:03:31 63

mysql中数据库和表的导出

导出数据库含数据mysqldump -u root --add-locks -q test > /tmp/test.sql 导出表数据mysqldump -u root --add-locks -q test WEATHER_STATION_INFO > /tmp/test.sql 导出数据库结构 -dmysqldump -u root --add-locks -q...

2014-03-24 17:45:32 86

Java利用Calendar获取一段时间内的日期

写了一个小工具,可以获取当前时间前一段时间内的日期代码如下:import java.text.DateFormat;import java.text.SimpleDateFormat;import java.util.ArrayList;import java.util.Calendar;import java.util.Date;import java.util.L...

2014-03-06 16:50:28 396

Mysql查看sql的执行时间

在mysql中我们可以通过以下的方法去了解sql执行的具体步骤以及之间,这可以为 1. 查看profiling的状态,1为开启,默认处于关闭状态SELECT @@profiling; 2. 开启SET profiling = 1;3. 执行sql语句 4. 显示 profiles的信息,格式看着不爽的可以在后面加上\Gshow profiles;show p...

2014-02-28 16:32:18 367

Linux中记录在线时长的uptime命令

如何获得Linux服务器当前已经运行了多久呢,可以通过uptime命令,执行该命令后会返回一组数据如:20:03:36 up 11:41,  3 users,  load average: 0.15, 0.14, 0.05其中,20:03:36    当前的系统时间11:41         服务器开机后持续的运行时间3 users      当前登录到系统的用户数,包...

2014-02-12 20:43:28 557

Mysql主从模式的原理

参考网上的文章加上自己的一点心得体会MYSQL主从同步的作用(1) 数据分布(2) 负载平衡(load balancing)(3) 备份(4) 高可用性(high availability)和容错 MYSQL主从同步的原理 大致描述一下过程:从服务器的IO线程从主服务器获取二进制日志,并在本地保存为中继日志,然后通过SQL线程来在从上执行中继日志中的内容,从而使从库和...

2014-02-08 20:53:33 122

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除