- 博客(110)
- 收藏
- 关注
转载 有用文章搜藏
https://www.cnblogs.com/haoxiaozi/p/6318813.html yum方式外网安装mysql转载于:https://www.cnblogs.com/serendipity/p/8685916.html
2018-04-01 10:45:00 140
转载 yum的方式安装mysql服务端
以root用户使用yum的方式来安装mysql服务端和客户端1、安装相应的软件yum install mysql : 安装mysql客户端yum install mysql-server 安装服务端yum install mysql-devel 安装相关的开发依赖2、mysql用户添加更新新建mysql用户userdel mysql useradd m...
2016-10-10 11:56:00 167
转载 关于java的System.load 和 System.loadLibrary
关于两者的区别(参见http://blog.csdn.net/ring0hx/article/details/3242245)System.load 参数为库文件的绝对路径,可以是任意路径。System.loadLibrary方法load的为相对路径,即在java.library.path定义下的lib文件,文件名会更具不同的系统实现加上不同的前缀、后缀。例如:System.lo...
2016-03-21 20:54:00 244
转载 Hbase Scan & Get流程
Hbase支持两种读读操作,Scan & Get两种,Get在hbase的内部也是会转换成startRow == endRow的操作,所以本文就只介绍Get操作。Scan的实际执行者是RegionScannerImpl ,下面是一张整体ScannerImpl的调用图关于Scan的参数:Get和Scan其实是同一操作,get是startRow==endRow的Sca...
2015-09-21 21:15:00 219
转载 Hbase Region Server整体架构
Region Server的整体架构本文主要介绍Region的整体架构,后续再慢慢介绍region的各部分具体实现和源码RegionServer逻辑架构图 RegionServer职责1、 监听协作,通过zk来侦听master、meta位置、集群状态等信息的变化,更新本地数据。2、 管理region的offline、online、open、cl...
2015-09-21 17:25:00 294
转载 hbase Java client(Release 1.0)
Hbase Java Client简介概述以及架构我们在使用hbase的时候,数据操作都是和regionserver直接通信操作,hbase的Java客户端将这些操作都封装在HTable类中,对外我们使用的所有操作都是直接使用HTable的api来直接操作,HTable的基本操作如下:get、get list、put、put list、delete、delete list、a...
2015-09-21 16:49:00 148
转载 无密码ssh操作步骤备忘
需求:A机器无密码登陆到B机器 1、A机器执行 ssh-keygen-trsa ,在~/.ssh/下生成id_rsa 和 id_rsa.pub两个文件,其中id_rsa.pub是公匙 2、copyid_rsa.pub 到B机器上 ,cat id_rsa.pub > ~/.ssh/authorized_keys ,将公匙内容输入到autho...
2014-12-24 11:58:00 84
转载 关于jvm的正常退出
我们在写一些server程序的时候,往往希望在整个jvm退出(因为异常退出或者进程被kill)的时候,能释放在使用的一些系统资源(数据库连接,rpc链接等) 。具体操作:在程序启动的时候,注册hook,demo如下:Runtime.getRuntime().addShutdownHook(new Thread() { ...
2014-08-22 17:44:00 193
转载 一篇关于HashMap性能的测试
具体代码如下:public class MemoryLookupTest { public static void main(String[] args) throws IOException { String filePath = "D:/tmp_data/countData"; LineNumberReader lineReade...
2014-07-22 19:45:00 133
转载 针对有序集合相似性的评估方法
背景:上篇文章《文本相似搜索算法以及改进》中对于vsm文本计算相似度的时候,每篇文章在做成vsm文本向量的时候,会有个问题:一篇文章中包含的词是很多的(有的在1000左右),不可能包含全部的词,这样在计算以及存储上都会有些问题,太大,这样只能精简一些词来代表这边文章,现在的方法是将所有的词维度值从大往小排列,取前N个来代表这个向量,这样带来的问题就是当你减少这个N的时候,怎么确保对整体的...
2014-05-20 10:16:00 298
转载 kemans算法
占位,后续补充转载于:https://www.cnblogs.com/serendipity/articles/3738273.html
2014-05-20 10:09:00 181
转载 kmeans聚类的初始点投放算法(占位)
占位转载于:https://www.cnblogs.com/serendipity/articles/3738272.html
2014-05-20 10:08:00 112
转载 文本相似搜索算法以及改进
以前做的一个相关博文推荐的项目,整理了一下 目的:针对于博客,推荐内容相关博客 。方法:将博客分词、去除停用词、tf-idf、标题加权等做成vsm向量,将一篇文章和其它的所有文章求相似度(文本一般采用cos相似度),然后取相似度最大的N篇文章 。总共300万篇文章左右,遇到的困难:每篇文章都要和其它的300W篇做计算,然后去相似度的TopN,总共要计算的是300W*300...
2014-05-20 09:37:00 149
转载 调研系列第六篇:HIVE的DML语句执行简介
HIVE的DML语句执行简介1.执行入口简介对于一般语句的执行入口都是在Driver.run(String command)这个方法中,runInternalàcompileàexecute词法+语法解析:调用antlr的解析类,生成一棵ast语法树语义解析:以嵌套的方式解析出一个sql中各个数据项,调用SemanticAnalyzer.doPhase1,...
2014-05-20 09:09:00 387
转载 调研系列第五篇:antlr以及hive的parse执行入口
关于antlr的使用Hive使用的是antlr来做词法、语法的解析工作,最终生成一棵有语义的ast数。关于antlr1、ANTLR是ANother Tool for Language Recognition的缩写“又一个语言识别工具”,读[ 'æntlə ]。从名字上可以看出在ANTLR出现之前已经存在其它语言识别工具了(如LEX1,GCC ,YACC2)。Antlr通...
2014-05-20 08:59:00 318
转载 调研系列第四篇:Hive MetaStore数据库表结构
先来一张整体概述Hive MetaStore数据库表结构1.SEQUENCE_TABLE :对于db、tbl、sds等的SEQUENCE_id ,每次新增的时候取一个2.DBS:存储hive的DB信息,表结构如下:3.DATABASE_PARAMS:db的key-v...
2014-05-19 20:45:00 177
转载 调研系列第三篇:hive的SerDe以及ObjectSpector
关于hive中的SerDeAbstractSerDe和ObjectInspector1、继承关系 AbstractSerDe是继承了接口SerDe的abstarct类,SerDe是继承了Deserializer, Serializer接口的,新的hive使用AbstractSerDe来代替接口,将序列化和反序列化合到一起。2、...
2014-05-19 20:34:00 162
转载 调研系列第二篇:HCatalog简介
1.一般的hdfs读写传统的对于hdfs的读写都是直接设置inputPath和outPath,而且对于数据都是以文件的形式访问的,不涉及到结构化/半结构化的东东,及时如hive存储在hdfs的的结构化数据,外部系统访问也只能自己去了解具体的结构是如何存储的,然后自己读文件再访问,传统访问hdfs的方式如下:使用InputFormat、Split、Recor...
2014-05-19 20:31:00 314
转载 调研系列第一篇:Orcfile数据文件
最近项目需要调研了下orcfile文件的格式、hive执行流程、hactalog等,整理和大家分享下,欢迎拍砖和探讨 。废话少说,第一篇orcfile Orcfile一些优点http://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.0.0.2/ds_Hive/orcfile.html#ORCFiles-ORCFileForm...
2014-05-19 20:15:00 397
转载 搜索引擎闲话
注:这两年做数据仓库以及数据处理,发现其实很多搜索中的东西在数据处理、adhoc等一些场景中也是同样适用的,淘宝的mkdrill其实就是将分布式搜索引擎用来做数据的检索(原始数据很大但是结果集很小的场景)。 将自己前两年做搜索的流程以及中的问题整理整理下,先写个框架,后续会慢慢更新~~ 再不写,真的就忘了新闻抓取spider解析parse结构化去重索引ind...
2014-05-12 10:20:00 61
转载 cgwin的ssh错误解决办法
参考博客 http://hi.baidu.com/luckygirl/item/bd00a6d8a05c310d20e25039 方法一(推荐):修改/etc/passwd文件,在其中加入sshd:x:74:74:Privilege-separatedSSH:/var/empty/sshd:/sbin/nologin或者sshd:x:74:74:Privil...
2013-10-09 17:15:00 146
转载 关于java的位运算(<<、>>、<<<、&、|、^、~)
几个位运算的操作解释:<< :左(箭头的方向)移,移除的高位舍弃,低位补零 。>> :右(箭头的方向)移,低位移除的舍弃,高位补进符号位(如果是正数的话补0,负数的话补1 )。>>>:和上一个一样的右移,只是该操作无论符号位怎样,高位均补零 。& :将两个数按位进行 且操作 。| :将两个数按位进行或操作。...
2012-09-26 14:29:00 66
转载 hive常用小常识(持续更新中)
1、hive函数:http://www.cnblogs.com/end/archive/2012/06/18/2553682.html2、hive QL语言:https://cwiki.apache.org/Hive/languagemanual-ddl.html#LanguageManualDDL-Create%252FDropTable3、creat [EXTERNAL] ...
2012-09-20 16:36:00 83
转载 关于源代码的阅读
由于google的svn不稳定,将这些代码都迁移到了github上 https://github.com/ddc496601562欢迎大家斧正讨论,有建议的可以邮件我 ~ ~ 谢谢 !!转载于:https://www.cnblogs.com/serendipity/archive/2012/06/14/2549250.html...
2012-06-14 14:11:00 57
转载 m个珠子共n种颜色,找出包含n种颜色的最短连续片段
原题目:有一串的珠子(首尾不相连),共有m个,每一个珠子有一种颜色,并且颜色的总数不超过n(n<=10),求连续的珠子的颜色总数为n时,长度最小的区间。题目分析:一 、暴力搜索 1、最简单的方法---暴力搜索,逐个扫描第i个位置开始包含n中颜色最短区间,时间复杂度为O(m^2) 。 2、从i开始扫描,每出现一种新的颜色,计数+1 ,当计数=n时候,结...
2012-05-31 16:02:00 201
转载 ThreadLocal的测试
package com.ddc.mem;public class ThreadLocalTestMain { ThreadLocal<AddInteger> localArgs=new ThreadLocal<AddInteger>(); AddInteger intance=new AddInteger(); publi...
2012-05-15 11:25:00 71
转载 java中内存的使用
一个java运行起来执行代码,主要的内存消耗有这几块:1、堆2、栈 :栈是每个线程一个的,是以消耗的内存是内存大小*线程数,当线程数特多时候需要小心 。3、直接内存:主要是通道时候的缓存,在内存不足是也会报OutOfMemoryError错误,外带sun.misc.Unsafe.allocateMemory异常(这个我认为类似于C中的malloc的功能) 。4、socke...
2012-05-15 10:30:00 92
转载 调试工具BTrace 的使用--例子
BTrace 是一款利用hotSpot虚拟机可以动态替换class的特点而完成的,可以对online的程序动态的改变类的行为(一般为加些打印日志),进而进行线上调试的一个工具。一篇淘宝技术团队的博客:http://rdc.taobao.com/team/jm/archives/509主要步骤如下(本次测试只针对BTrace和测试的程序在同一台机器上,remote的还待实验):...
2012-05-14 18:45:00 181
转载 输入的InputFormat----SequenceFileInputFormat
继承关系:SequenceFileInputFormat extends FileInputFormat implements InputFormat 。SequenceFileInputFormat 代码如下(其实很简单): /** * 覆盖了FileInputFormat的这个方法,FileInputFormat通过这个方法得到的FileStatus...
2012-04-27 14:07:00 160
转载 InetAddress的测试
以下是关于InetAddress的一些测试package com.ddc.gemantic;import java.net.InetAddress;import java.net.UnknownHostException;public class InetAddressTestMain { /**对于InetAddress的测试 * ...
2012-04-19 13:25:00 105
转载 关于hadoop中datanode节点不同的dfs.data.dir之间数据均衡问题
问题:集群中的存储数据增大,导致datanode的空间都快占满了(以前的dfs.data.dir=/data/hdfs/dfs/data),机器的硬盘监控程序不停的报警 。 给每台机器加了一倍的存储硬盘(新的dfs.data.dir=/data/hdfs/dfs/data,/data/hdfs/dfs/data2 新的硬盘挂载在/data/hdfs/dfs/da...
2012-04-17 15:39:00 450
转载 数据挖掘-话题识别
简单话题识别的处理步骤:1、tf-idf处理词的值(idf为300万篇博文的切词)。2、切词并进行统计词频,依照tf-idf计算该词在向量中的维度值 。3、切分标题统计词频,标题的权重是3 (统计时,标题的实际词频*3) 。4、去掉非名词的词语,去掉一些自定义的无意义名词(像“今,今天”,“时候”等) 。5、取前100个词,组装成向量 。6、对向量归一化处理,...
2012-04-16 16:51:00 211
转载 shell脚本学习---006(对于文本中数字的解析计算)
#!/bin/shallTime=0iCounter=0grep 'dedup time :' $1 |while read LINEdo #echo "line is" $LINE oneTime=`echo $LINE |awk '{print $10}'` #echo "ont time is " $oneTime allTime=`expr $allTime + $oneTime...
2012-04-12 16:04:00 89
转载 java中String的基本知识以及例子
转载自源代码:添加注释 。1. String str1 = "abc"; System.out.println(str1 == "abc");步骤:1) 棧中开辟一块空间存放引用str1,2) String池中开辟一块空间,存放String常量"abc",3) 引用str1指向池中String常量"abc",4) str1所指代的地址即常量"abc"所在地址,输出为t...
2012-03-22 16:17:00 128
转载 java中强引用、弱引用
定义:1.强引用一般的引用实际上都是强引用,这是使用最普遍的引用。如果一个对象具有强引用,那就类似于必不可少的生活用品,垃圾回收器绝不会回收它。当内存空 间不足,Java虚拟机宁愿抛出OutOfMemoryError错误,使程序异常终止,也不会靠随意回收具有强引用的对象来解决内存不足问题。2.软引用(SoftReference)如果一个对象只具有软引用,那就类似于可有可物的生...
2012-03-22 10:57:00 60
转载 关于shell中的commond >out.file 2>&1 命令
shell命令:ls -al >out.log 2>&1命令含义:将shell命令的1(stdout)输出 和 2(stderr)输出都重定向到out.log这个文件中 。解释:ls -al ,一个commond执行后会有2种输出:1(stdout)输出 和 2(stderr) ,默认是将1重定向到标准的输出屏幕上 。 ls...
2012-03-21 10:12:00 145
转载 linux关机shutdown命令详解
1.shutdown shutdown命令安全地将系统关机。 有些用户会使用直接断掉电源的方式来关闭linux,这是十分危险的。因为linux与windows不同,其后台运行着许多进程,所以强制关机可能会导致进程的数据丢失﹐使系统处于不稳定的状态﹐甚至在有的系统中会损坏硬件设备。 而在系统关机前使用shutdown命令﹐系统管理员会通知所有登录的用户系统将要关闭。...
2012-03-14 21:02:00 211
转载 DataNode上的block以及meta文件的结构
package org.apache.hadoop.atest.datanade;import java.io.BufferedInputStream;import java.io.DataInputStream;import java.io.FileInputStream;import java.io.FileNotFoundException;import java.io.IOExc...
2012-03-14 20:29:00 262
转载 BlockTransferThrottler(hadoop中用于控制处理带宽的util类)
hadoop中用该类来控制对于数据的处理速度 ,主要思想如下:1、将数据处理分为一个个的周期(period)2、每个周期内处理的bytes固定 。3、定义每次处理周期的开始时间 。4、每次处处理完后调用BlockTransferThrottler.throttle(long numOfBytes)方法,若是还未到周期的结束时间,已经将处理了相应的bytes,则该线程wai...
2012-03-03 20:27:00 90
转载 hadoop源代码--DatanodeProtocol
原文转自博客:http://www.oratea.net/?p=799,添加一些修改 。DatanodeProtocol.java 路径:hadoop-0.19.2\src\hdfs\org\apache\hadoop\hdfs\server\protocol\DatanodeProtocol.javaDatanodeProtocol是DataNode与NameNode...
2012-02-15 14:24:00 108
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人