2016年10月_zhao_rock_2016

原创 SQLServer数据库文件mdf和ldf的导入及导出

通常导出SQLServer数据库的方式有两种:1.以SQL文件的方式导出2.以mdf和ldf数据库文件的方式导出 SQL文件的导出方式，通常需要自定义列与列之间的分隔符，因为默认的分隔符","，很可能出现在列的值中下面介绍一下导出和导入mdf和ldf的方式在sqlserver management studio进行如下操作1.导出数据库 1.1 脱机，(选择的数据库

2016-10-15 21:29:39 23990

原创 Spark将RDD转换成DataFrame的两种方式

介绍一下Spark将RDD转换成DataFrame的两种方式。1.通过是使用case class的方式，不过在scala 2.10中最大支持22个字段的case class,这点需要注意2.是通过spark内部的StructType方式，将普通的RDD转换成DataFrame装换成DataFrame后，就可以使用SparkSQL来进行数据筛选过滤等操作下面直接代码说话packag

2016-10-15 21:29:33 10607

原创机器学习工程师需要了解的十种算法

记录一下，有时间的时候研究，挺感兴趣的http://www.iteye.com/news/31803

2016-10-15 21:29:28 435

原创 Spark之RDD基础

RDD概念:RDD是只读的，分区记录的集合RDD支持基于工作集的应用，同时具有数据流模型的特点：自动容错位置感知性调度可伸缩性速度快的原因:RDD允许用户在执行多个查询时显式的将工作集缓存在内存中，后续的查询能够重用工作集RDD的5个主要属性1.一组分片(Partition),数据集的基本组成单位. 每个Partition都会被逻辑映射成BlockManager的一个Bl

2016-10-15 21:29:22 331

原创 Flume-ng 1.6启动过程源码分析(二)

阅读Flume源码后发现，Flume有两个顶级的接口：1. ConfigurationProvider接口，提供了getConfiguration()方法，用于获取不同组件的配置。2. LifecycleAware接口，提供了三个方法，start() stop()和getLifecycleState()，分别用于组件的启动停止以及组件在生命周期中处的状态，可以说这个接口贯穿于整个Flume

2016-10-15 21:29:16 853

原创 Flume-ng 1.6启动过程源码分析(一)

启动部分主要分为四块命令行参数的载入，这部分用的common cli实现对于可选的zk配置的加载对于flume-ng配置的加载，这里利用EventBus实现配置文件动态加载组件的启动简单介绍下EventBus，它是Guava提供的消息发布-订阅类库，机制与观察者模式类似。下面主要介绍上面提到的第3和4部分。首先flume-

2016-10-15 21:29:10 392

原创 flume使用hdfs sink时需要注意的几点

最近接触了flume，这个日志收集器在扩展性方面确实很便捷，相信这与其架构的设计有密切的关系。书归正传，这次用到了hdfs sink在使用时还是有几点需要注意的，在此和大家分享一下。第一部分windows下搭建单机的hdfs如果你和我一样没有linux的测试环境，想在windows搭建hdfs，可以参考下面的链接，笔者就是参照这篇文章进行部署的http://blog.csdn.n

2016-10-15 21:29:04 1756 1

原创基于flume-ng抓取mysql数据到kafka

flume是一个日志收集器，更多详细的介绍可以参照官网:http://flume.apache.org/ 在apache flume的官网上没有找到sql数据源数据抓取的source，可以利用github上的plugin插件:https://github.com/keedio/flume-ng-sql-source,1.4.3版本基于hibernate实现，已可以适配所有的关系型数据库

2016-10-15 21:28:58 3564 3

原创利用scala的trait特性实现简单AOP

最近开始系统的研究下scala trait字面意思是特质或者特征，这里翻译成特征比较合适。scala中trait的意义和java中接口很类似，但是trait支持实现，也就是说在scala的trait中方法可以是抽象方法，也可以是带实现的非抽象方法。另一个重要的与java interface的不同点，scala可以在一个class实例化的时候通过with关键字混合进一个trait。wit

2016-10-15 21:28:52 414

1.ansjansj是ictclas(中科院分词)的java实现.基本上重写了所有的数据结构和算法.词典是用的开源版的ictclas所提供的.并且进行了部分的人工优化内存中中文分词每秒钟大约100万字(速度上已经超越ictclas)文件读取分词每秒钟大约30万字准确率能达到96%以上目前实现了: 1.中文分词 2.中文姓名识别 3.用户自定义词典可以应用到自然语言处理等方面,适用于对分词效果要求高

2016-10-15 21:28:47 5011

原创基于自然语言关键词的打分器

最近在做自然语言处理，当句子中有多个关键字时，就无法简单的通过关键字进行分类，需要筛选出句子的核心关键字，基于这个思想，自己开发了一个打分器，得分多高的关键词，即为该句的核心关键词该打分器主要是为自然句子中的关键字进行打分，通过分数的高低选举出关键字的重要度下面通过简单的例子说明,如句子: 电脑异响，怀疑是硬盘有问题，查为风扇的故障，更换风扇后正常.其中筛选出和电脑相关的词汇设置

2016-10-15 21:28:41 882

原创常用git命令积累汇总

以下是最近用git cmd常用到的命令项目目录：cd Project_Dir #初始化gitgit init #添加要提交的文件如README.md,'.'代表当前目录的所有文件git add README.mdgit add . #git提交代码带上注释git commit -m "update readme.md commit" #git从服务的maste

2016-10-15 21:28:36 224

原创 zookeeper注册服务与netty的简单结合应用

简单介绍一下zookeeper和nettyNetty:流行的NIO Socket通信框架，很多开源软件如hadoop tachyon spark都使用Netty作为底层通信框架Zookeeper:分布式的，开放源码的分布式应用程序协调服务,hadoop hbase等开源分布式系统的重要组件应用场景描述:利用Zookeeper的服务注册与发现功能，实现Netty通信集群的简单高可用。

2016-10-15 21:28:30 2339

原创开启google人工智能学习Tensorflow之旅(一)

简介TensorFlowTensorFlow是谷歌基于DistBelief进行研发的第二代人工智能学习系统。Tensor（张量）意味着N维数组，Flow（流）意味着基于数据流图的计算，这和当前很多主流机器学习框架类似，如spark，。TensorFlow为张量从图象的一端流动到另一端计算过程。TensorFlow是将复杂的数据结构传输至人工智能神经网中进行分析和处理过程的系统，目前

2016-10-15 21:28:24 477

原创 Spark1.6新特性简介及个人的理解

新的Spark1.6版本发布了，之前使用Spark1.4版本的SparkSQL，这次发布后主要关注了1.6版本的SparkSQL特性参阅了官方的Release Note和jira issue detail以及之前在使用1.4.0中的经验，跟大家分享一下Spark1.6部分新加的几个特性。 1. Dataset API目前Spark有两大类API:RDD API(Spark Core),Da

2016-10-15 21:28:18 320

原创 Maven构建SpringMVC项目详解

Eclipse版本： Eclipse Java EE IDE for Web Developers. Version: Kepler Service Release 2 上述版本的Eclipse中已经包含了基本的maven插件，如果你使用的eclipse中没有，可以通过下面的地址在Eclipse Help->Install New Software 中安装:

2016-10-15 21:28:13 391

原创 CXF集成Spring

最近调研了对webservice实现比较好的框架，觉得Apache的CXF不错.做了一个简单的技术预研，其中主要包括2方面:1.与Spring的集成，2.安全性方面即WS-Security首先与Spring的集成可以通过ContextLoaderListener去装配bean在WS-Security方面可以与WSS4J集成WSS4J支持多种模式：XML Security:1.XML Signatu

2016-10-15 21:28:07 238

原创记一次Spark集群查询速度变慢的问题调查

现象:针对某张表(下文中用A表代替)的查询速度慢了6s 简单介绍一下系统的架构:Spark + Tachyon + glusterfs+mesos,其中glusterfs负责tachyon数据的持久化，Spark从tachyon上加载数据，mesos负责Spark任务调度通过对比分析Spark:4040页面提供的任务执行信息发现，A表的Spark任务中，出现了Loca

2016-10-15 21:28:01 2732

原创 SparkSQL Driver ClassNotFoundException的解决方案

在使用SparkSQL连接关系型数据库时，需要通过JDBC来加载对应数据库的驱动，如SQLServer JDBC连接用到的sqljdbc4.jar，处理时经常会遇到sparksql抛出jdbc的驱动程序ClassNotFoundException，类似下面的错误提示 Exception in thread "main" java.lang.ClassNotFoundException:

2016-10-15 21:27:55 3315

原创 SparkSQL操作sqlserver和postgresql示例

def main(agrs: Array[String]){ //configuration and new Spark Context val conf = new SparkConf().setAppName("SparkSQL_Select_Table") .set("spark.driver.allowMultipleContexts", "tru

2016-10-15 21:27:50 923

原创 quartz中设置Job不并发执行

System.out.println("不知道该怎么删除这个Java代码框了");使用quartz框架可以完成定时任务处理即Job，比如有时候我们设置1个Job每隔5分钟执行1次，后来会发现当前Job启动的时候上一个Job还没有运行结束，这显然不是我们期望的，此时可以设置quartz中的参数，来确保Job不并发执行 1. quartz未与Spring结合//可以通过在实现Job接口

2016-10-15 21:27:44 7679 1

原创 SparkSQL中DataFrame registerTempTable源码浅析

dataFrame.registerTempTable(tableName); 最近在使用SparkSQL时想到1万条数据注册成临时表和1亿条数据注册成临时表时，效率上是否会有很大的差距，也对DataFrame注册成临时表到底做了哪些比较好奇，拿来源码拜读了下相关部分，记录一下。临时表的生命周期是和创建该DataFrame的SQLContext有关系的，SQLContext生命周期结束

2016-10-15 21:27:38 1981

原创使用Maven为代码构建依赖包

用Maven来管理代码的依赖包，这种方式还是不错的，jar包的依赖关系及下载都由Maven替我们完成，很方便用Maven构建依赖包的主要步骤:1.双击Pom.xml在Dependencies选项卡中点击add,输入对应信息后点击确定 2. 切换到Dependencies Hierarchy会发现自动下载了json-lib的依赖包 3. 在

2016-10-15 21:27:33 419

原创 sqoop1.4.5将mysql中的数据导入到HBase中

什么是sqoop？关于发音，困扰了我很久，一番类比之后，决定读为“丝库坡”，英语老师看见了会不会疯掉，呵呵，我就是这样一个逗x。书归正传：Sqoop【SQL-To-Hadoop】是将关系型数据库的数据(MySQL or Oracle or Postgre)导入到HDFS及其子系统中(Hive, HBase)的工具 sqoop有两个版本，sqoop1和sqoop2，两者特性不同

2016-10-15 21:27:27 353

原创工作的感受

最近的三个月一直很忙，没有时间去更新技术上的文档，静下心来写下这篇文章是想通过跳槽的事情将自己的一些经验记录下来。从事技术开发快4年的时间，毕业后就在家乡大连工作，现在有幸在一家小公司上班，老板喜欢技术，对我们技术人员挺好的，做的相对比较先进的技术大数据，分布式存储及kvm虚拟化相关的，同事也相处的不错。前几天去一家初创的金融背景公司，面了个试，为什么要去面试呢，他们正在组建团队

2016-10-15 21:27:21 188

原创 js使用parseInt时的易错点

今天写js的时候遇到parseInt字符串出错，使用parseInt(string, radix);转对于parseInt("01")到parseInt("07");都能得到正确的结果，但如果是parseInt("08") 或parseInt("09")则返回0；首先看parseInt语法：parseInt(string, radix);其中string为要转换的字符串，radix

2016-10-15 21:27:15 631

原创 Java产生一段范围内的随机数及毫秒到日期间的相互转换

/** * 产生一段范围内的随机数 */ //方法一:把范围内的数赋值到数组内，然后随机取得数组下标 int [] seed = new int[50]; int j=0; for(int i=30;i<80;i++){ seed[j]=i; j++; } System.out.println(seed[r.nextInt(50)

2016-10-15 21:27:09 992

原创 Java读取classpath中配置文件的小例子

import java.io.IOException;import java.io.InputStream;import java.util.Properties;public class PropLoad { private static Properties p = new Properties(); static { InputStream in

2016-10-15 21:27:04 308

原创 Starting NFS daemon failed的错误解决

重启rpcbind服务service rpcbind restart再重启nfs服务service nfs restart

2016-10-15 21:26:58 1624

原创 Mysql ndbcluster

mysql ndbcluster 官方文档http://dev.mysql.com/doc/refman/5.1/zh/ndbcluster.html

2016-10-15 21:26:52 173

原创 mysql中数据库和表的导出

导出数据库含数据mysqldump -u root --add-locks -q test > /tmp/test.sql 导出表数据mysqldump -u root --add-locks -q test WEATHER_STATION_INFO > /tmp/test.sql 导出数据库结构 -dmysqldump -u root --add-locks -q -d test

2016-10-15 21:26:47 320

原创 Java利用Calendar获取一段时间内的日期

写了一个小工具，可以获取当前时间前一段时间内的日期代码如下：import java.text.DateFormat;import java.text.SimpleDateFormat;import java.util.ArrayList;import java.util.Calendar;import java.util.Date;import java.util.Li

2016-10-15 21:26:41 594

原创 Mysql查看sql的执行时间

在mysql中我们可以通过以下的方法去了解sql执行的具体步骤以及之间，这可以为 1. 查看profiling的状态，1为开启，默认处于关闭状态SELECT @@profiling; 2. 开启SET profiling = 1;3. 执行sql语句 4. 显示 profiles的信息，格式看着不爽的可以在后面加上\Gshow profiles;show pro

2016-10-15 21:26:35 257

原创 Linux中记录在线时长的uptime命令

如何获得Linux服务器当前已经运行了多久呢,可以通过uptime命令，执行该命令后会返回一组数据如：20:03:36 up 11:41, 3 users, load average: 0.15, 0.14, 0.05其中，20:03:36 当前的系统时间11:41 服务器开机后持续的运行时间3 users 当前登录到系统的用户数，包括通

2016-10-15 21:26:30 394

原创 Mysql主从模式的原理

参考网上的文章加上自己的一点心得体会MYSQL主从同步的作用(1) 数据分布(2) 负载平衡(load balancing)(3) 备份(4) 高可用性(high availability)和容错 MYSQL主从同步的原理大致描述一下过程：从服务器的IO线程从主服务器获取二进制日志，并在本地保存为中继日志，然后通过SQL线程来在从上执行中继日志中的内容，从而使从库和主

2016-10-15 21:26:24 234

原创 python基于Hadoop Streaming实现简单的WordCount

1. Eclipse下配置python插件PyDev参考：http://blog.chinaunix.net/uid-11121450-id-1476897.html 2. Hadoop Streaming编程Hadoop Streaming是利用“标准输入”和“标准输出”与我们编写的Map和Reduce进行数据的交换。那么，任何能够使用“标准输入”和“标准输出”的编程语言都应该可

2016-10-15 21:26:18 262

原创 java ant知识的一点积累

最近在搞一个Linux打包java项目的工具，编译工具采用的ant，积累了一点关于ant的微薄的经验，记录一下。 1. 默认情况下，使用ant命令会在当前的路径下寻找build.xml,根据里面的配置进行打包，当然我们也可以指定自定义的.xml文件进行打包，主要可以通过以下的三种模式 ant -buildfile mybuild.xmlant -file mybuild.xmlan

2016-10-15 21:26:11 291

原创 mysql常用的日期函数汇总

最近做统计时经常用到的几个mysql函数：1. UNIX_TIMESTAMP() 该函数返回1970到现在的秒数，括号内也可以带参数，即返回1970年到指定时间段的秒数，注意是秒数，常用java的兄弟们需要注意，因为java中的System.currentTimeMillis()返回的是毫秒数 2. date_format()举一个例子 date_format(now(), '

2016-10-15 21:26:06 287

原创 CentOS下创建有上限大小的文件夹

创建有配额的文件夹主要是利用Linux下的loop设备Linux中有一种特殊的块设备叫loop device,这种loop device设备是通过影射操作系统上的正常的文件而形成的虚拟块设备。也就是说loop设备是一个虚拟设备,是用于把某个文件虚拟成一个磁盘介质设备的.关联之后对loop可以格式化，实际就是对关联文件进行某种操作，能够让这个文件像磁盘一样被mount，并且使用。也可以理解成

2016-10-15 21:26:00 2438

原创 linux kvm虚拟机img文件挂载到宿主机

在使用虚拟化的过程中，难免会遇到虚拟机异常导致无法启动等故障，这时候如何从虚拟机的img中将重要文件或数据拷贝出来显得尤为重要，今天介绍一下利用qemu-nbd的方式将img文件挂载到宿主机。需要注意的是，目前仅针对于img文件类型为qcow2的做过测试。1. 检测img文件的类型： file test.img test.img: Qemu Image, Format:

2016-10-15 21:25:54 1600

minibatis框架

空空如也