自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(29)
  • 收藏
  • 关注

原创 hbase分布式安装

Hbase有几种安装的方法,这里要讲的是在学习过程中用几台虚拟机模拟的分布式安装。 1.首先,下载Hbase对应的包,要注意需要下载和hadoop版本相对应的hbase版本,防止产生不兼容的问题,具    体版本对应可以再apache官网进行查询。(hbase-0.98.4-hadoop2与hadoop-2.3.0) 2.解压包后,将hbase-0.98.4-hadoop2放在/...

2017-03-15 09:10:17 150

原创 DenStream算法

思想:DenStream可以说是针对Clustream的缺陷进行改进的,通过引入CMC(核心微簇),PMC(潜在核心微簇)以及OMC(离群微簇)以及时间衰减函数f(t)=2-λ来对不同时间的数据点的重要性进行加权。对微簇micro-cluster的定义也加入了时间权重。 方法:在线阶段,同时维护PMC和OMC两个队列,根据在两个队列的权重变化来对微簇的在潜在核心和离群两个角色进行调整变...

2016-12-09 16:15:21 2344

原创 CluStream算法

思想:clustream算法的核心思想就是金字塔时间快照,以及分为on-line操作的micro-cluster和off-line操作的macro-cluster两个阶段,同时属于landmark window(界标窗口)的处理模式。 方法:其中micro-cluster是用来存储数据点的特征向量组的,用于存储线上分析时候整个数据流的静态统计信息,并根据金字塔时间在选定的时间来存储整个...

2016-12-09 15:36:39 2687 1

原创 使用ant在window下编译不同hadoop版本的eclipse插件包Ant 1)下载 http://ant.apache.org/bindownl...

Ant    1)下载   http://ant.apache.org/bindownload.cgi   apache-ant-1.9.4-bin.zip 2)解压到一个盘,如图所示:    3).环境变量的配置    新建ANT_HOME=E:\ant\apache-ant-1.9.4-bin\apache-ant-1.9.4    在PATH后面加;...

2016-10-12 19:20:42 217

原创 在Ubuntu下对hadoop2.x进行64位编译出错原因

  由于hadoop2.x后,在lib/native/目录下面的libhadoop.so.1.0.0 文件是32位的,所以如果在64位的linux上安装官方提供的hadoop2.x,肯定不能运行,就需要对其进行编译。编译过程详见另一篇blog。    但是在编译过程中总是出现下面错误 :[ERROR] Failed to execute goal org.apache.maven.pl...

2016-09-16 16:46:32 182

原创 Ubuntu中 SSH连接错误: WARNING: REMOTE HOST IDENTIFICATION HAS CHANGED

Ubuntu中 SSH连接错误: WARNING: REMOTE HOST IDENTIFICATION HAS CHANGED出现问题:在配置hadoop实验环境的时候,对各个节点进行SSH免密码登录配置的时候,用node21节点对master2节点进行SSH连接的时候,发生了WARNING: REMOTE HOST IDENTIFICATION HAS CHANGED的错误,问题原因...

2016-09-06 08:13:48 285

原创 在window下搭建hadoop的架构和eclipse开发环境

一.安装hadoop分布式集群:1 安装Vmware WorkStation软件有些人会问,为何要安装这个软件,这是一个VM公司提供的虚拟机工作平台,后面需要在这个平台上安装linux操作系统。具体安装过程网上有很多资料,这里不作过多的说明。 2 在虚拟机上安装linux操作系统在前一步的基础之上安装linux操作系统,因为hadoop一般是运行在linux平台之上的,虽然...

2016-07-20 10:37:28 114

原创 LDA和PCA算法

1. 问题之前我们讨论的PCA、ICA也好,对样本数据来言,可以是没有类别标签y的。回想我们做回归时,如果特征太多,那么会产生不相关特征引入、过度拟合等问题。我们可以使用PCA来降维,但PCA没有将类别标签考虑进去,属于无监督的。比如回到上次提出的文档中含有“learn”和“study”的问题,使用PCA后,也许可以将这两个特征合并为一个,降了维度。但假设我们的类别标签y是判断这篇文...

2016-04-14 16:59:24 281

原创 Alphago中的蒙特卡洛算法

AlphaGo使用蒙特卡洛树搜索(Monte Carlo tree search),借助值网络(value network)与策略网络(policy network)这两种深度神经网络,通过值网络来评估大量选点,并通过策略网络选择落点。 什么是 MCTS?全称 Monte Carlo Tree Search,是一种人工智能问题中做出最优决策的方法,一般是在组合博弈中的行动(...

2016-03-12 15:55:43 1803

原创 常用电子商务相关简写解释(P2P,O2O,C2C,B2B,B2C,P2C)

P2P到底是什么呢?P2P借贷是一种将非常小额度的资金聚集起来借贷给有资金需求人群的一种民间小额借贷模式。P2P是“Peer-to-Peer”的简写,个人对个人的意思,P2P借贷指个人通过第三方平台(P2P公司)在收取一定服务费用的前提下向其他个人提供小额借贷的金融模式。P2P模式第一种是纯线上模式,是纯粹的P2P,在这种平台模式上纯粹进行信息匹配,帮助资金借贷双方更好的进行资金匹...

2015-09-25 13:01:59 814

原创 计算机网络实验常用软件对比

   目前计算机网络常用的实验软件有:NS2,NS3,OPENET,GNS3和Packet tracer等。NS2,NS3和OPENET侧重于路由协议原理的模拟,适合于科学研究;后几种软件更适合路由交换的组网与配置模拟。GNS3直接加载路由器IOS来实现模拟,占内存比较多,CPU使用率高,适合高级用户。Packet tracer是思科提供的,是思科网络工程师认证的模拟教学软件,支持常用的协议模...

2015-09-25 13:01:41 2668

原创 如何寻找综述性文章

(1)利用ISI Web of Knowledge 进行检索:首先检索某个专题文献,然后点击“分析检索结果”,在“根据字段排列记录:”下方的下拉菜单中点击“文献类型”,点击“分析”,勾选Review前面的复选框,点击“查看记录”即可获取所需要的高品质综述;(2)生物医学类综述文章可利用NCBI进行检索:进入NCBI网站,在“Search”下拉菜单中,点击进入“Pubmed”,再点击“Limit...

2015-09-17 10:35:55 9202 1

原创 国外博士论文下载(转载)

国外的博士论文很多工作系统性强,条理清晰,是科研者很好的参考资料。可是怎么样能够搜索并下载到fulltext,比如如何利用好Google工具来检索呢,大家来讨论下,各抒己见,互相学习,共同进步吧PS:发起话题已经有几天了,大家发言都很中肯,我把各位虫友的意见总结了下,得到了简单的搜索国外硕博士论文的方法,将会继续更新完善......1、利用专业的博士论文数据库如proquest数据库(ProQue...

2015-06-29 14:53:03 344

原创 数学学习在计算机研究领域的作用和重要性

最近一直有师弟师妹和朋友问我数学和研究的关系,研一要去学什么数学课。毕竟在清华,衡量一个研究生最重要的指标之一就是paper,而没有数学,是肯定上不了世界顶级的期刊和会议的,这在计算机学界尤其重要!你会发现,不论哪个领域有价值的东西,都一定离不开数学!在这样一个信息时代,当google已经让世界没有秘密的时候,一种卓越的数学思维,绝对可以成为你的核心竞争力.  无奈本人实在见地有限,且生活慵懒,一...

2015-06-29 14:45:57 736

原创 一个MIT计算机博士对数学的思考

 在过去的一年中,我一直在数学的海洋中游荡,research进展不多,对于数学世界的阅历算是有了一些长进。为什么要深入数学的世界?作为计算机的学生,我没有任何企图要成为一个数学家。我学习数学的目的,是要想爬上巨人的肩膀,希望站在更高的高度,能把我自己研究的东西看得更深广一些。说起来,我在刚来这个学校的时候,并没有预料到我将会有一个深入数学的旅程。我的导师最初希望我去做的题目,是对appearan...

2015-06-29 14:43:18 212

原创 Matlab下用自带函数进行的聚类分析

说明:如果是要用matlab做kmeans聚类分析,直接使用函数kmeans即可。使用方法:kmeans(输入矩阵,分类个数k)。 转载一:MATLAB提供了两种方法进行聚类分析:1、利用 clusterdata 函数对数据样本进行一次聚类,这个方法简洁方便,其特点是使用范围较窄,不能由用户根据自身需要来设定参数,更改距离计算方法;2、分步聚类:( 1)用 pdist函数计算...

2014-04-23 14:22:59 3497

DBSCAN算法的实现过程

1.初始化设置方式:      建立原始的数据集dataset,并在原始数据集中增加一个数据属性ClusterId字段,本字段用于存储分类后的结果,刚开始每个对象的ClusterId属性值都为0;      建立一个搜寻的数据集Search,用于临时存储搜寻的中间结果。      对参数MinPts和Eps进行初始化。2.遍历dataset,将每一个数据对象当做种子进行考察,i...

2014-04-15 16:05:27 1610

原创 网络挖掘的初步认识

由此引出网络挖掘的概念,它指的是数据挖掘技术在网络信息处理上的应用。信息化的逐步深入和可获取数据爆炸性的增长,为网络挖掘的发展提供了足够的沃土,引起多个学科的关注和涉足,如社会组织学、信息管理学和计算机科学。随着大数据时代的来临,旨在快速、高效获取知识的网络挖掘将获取的巨大的发展空间,成为一门真正的科学。网络挖掘的重要人物有卡内基梅隆大学的Christos Falousos、康奈尔大学的Jo...

2013-09-25 00:18:50 330

原创 powerdesigner 中cdm,ldm,pdm的区别

由于现在很多数据库设计在做完概念设计阶段就会添加属性和主键等,所以经常将数据库的概念设计和逻辑设计放在一起。所以,我们会着重讲一下CDM和PDM的区别。后面在给你一个CDM.PDM.LDM的大致区别。CDM和PDM的区别? 概念数据模型(CDM) 信息系统的概念设计工具,即实体-联系图(E-R图),CDM就是以其自身方式来描述E-R图。此时不考虑物理实现的细节,只表示数据库的整体逻辑结构,...

2013-05-06 16:22:19 1547

原创 论文是否被SCI, EI 检索

   学术界,尤其是国内学术界,把SCI,EI看得太重,很多大学都要求博士毕业要有SCI,硕士毕业要有EI文章。在加拿大,就我看来,不是很注重这一块,主要是分期刊和会议,另外就是业内有自己的标准,哪些是牛的期刊,哪些是一般的。甚至觉得有的好的会议比一般的期刊都要好,那种会议的每一篇稿件的审稿人有5到6个,通常回来的审稿意见都有论文本身那么长。    无论如何,这是一个潮流,一个趋势,我们不...

2012-12-29 11:40:41 1355

myeclispe 乱码问题

1)Myeclipse中文注释乱码的问题编码的问题。点window-preferences-General-Content Types 在Text下选择对应的文件类型再改页面编码为UTF-8然后点Update就可以了。另外:在项目根节点上Alt+Enter,弹出一窗口,在Resource窗口中选择Other为UTF-8其实不明白这两个地方有什么区别,不过注释总算不是乱码啦。2)MyEclipse中...

2012-02-15 21:07:03 105

原创 在mac下32位和64位运算之间的切换

大家都知道,64位系统能够提供几乎无限的寻址空间,而且能够更高效的处理任务。然而,只有64位系统是不能够产生什么明显效果的,只有64位系统和真正意义上按64位架构运行的软件的组才合能给人带来前所未有的速度感受,以及很好的稳定性。 在最近所出的mac os下,同学们有幸能够体会到这种组合。 那么我们如何知道自己的mac,是在64位还是32位下运行呢:1.点击mac ...

2011-06-04 11:38:27 1581

原创 关于Extjs中(uncaught exception: No center region defined in BorderLayout)

最近,在使用Extjs的过程中,偶然遇到一个奇怪的问题 :就是我初始化了一个窗口,在页面上有一个图标,通过Ext.get("").on("click","")方法点击此图标显示此窗口,但是短短的一段代码,在firefox中老是报:uncaught exception: No center region defined in BorderLayout的错,而且无法显示此窗口。 ...

2011-01-11 15:00:39 395

json数据得使用

在extjs2.0中与服务器进行数据交换格式目前只支持json,JSON 即 JavaScript Object Natation,它是一种轻量级的数据交换格式,非常适合于服务器与 JavaScript 的交互。这里将对 JSON 格式进行个人的浅见,并通过代码示例演示如何分别在客户端和服务器端进行 JSON 格式数据的处理。1.Json必需的包commons-httpclient...

2009-01-09 12:04:15 84

extjs中断网后,图片显示不正常问题

这几天疯狂得爱上了extjs2.0,觉得它是一个相当不错得开源js框架,做出的界面也是相当的漂亮,所以投入了相当多得精力在其中。当然遇到了很多问题,其中就有:当把网断了的时候自己写的树的图标显示的时候变得一塌糊涂,经过一番辛苦才知道,这是因为在导入的JavaScript文件中ext-base.js有一个BLANK_IMAGE_URL ,他默认为http://extjs.com/s.gif,所以,断...

2009-01-09 11:51:22 85

hibernate乱码问题

在开发web程序,用hibernate做持久层工具时,出现了乱码,看了一下把页面编码和服务器返回的编码都是设置成utf8,找了很久才发现,是因为没有在hibernate也得设置编码,所以解决办法就是:在hibernate的 hibernate.cfg.xml的配置文件中的连接数据库的url中加上“?characterEncoding=UTF-8”设置好就好了。...

2009-01-09 11:43:55 74

原创 oracle 的导入

学到oracle 感觉很强大啊想用它作为自己项目的数据库 可是却不知道如何导入\导出数据库下面是自己在一番努力后找到的imp命令 用于导入\导出导入IMPOracle的导入实用程序(Import utility)允许从数据库提取数据,并且将数据写入操作系统文件。imp使用的基本格式:imp[username[/password[@service]]],以下例举imp常用用法...

2008-11-25 15:23:49 96

对jdom的认识和用法小解

JDOM认识和用法小解 一.JDOM是一个开源项目,它基于树型结构,利用纯JAVA的技术对XML文档实现解析、生成、序列化以及多种操作。说直接点就是,它是一个解析xml的java工具包。 二.使用JDOM的前提条件 必须要有SAX、DOM解析器的类文件,JDOM只是一种适合Java程序员来使用的Java XML解析器...

2008-11-25 15:21:26 116

oracle 的导入

学到oracle 感觉很强大啊想用它作为自己项目的数据库 可是却不知道如何导入\导出数据库下面是自己在一番努力后找到的imp命令 用于导入\导出导入IMPOracle的导入实用程序(Import utility)允许从数据库提取数据,并且将数据写入操作系统文件。imp使用的基本格式:imp[username[/password[@service]]],以下例举imp常用用法...

2008-11-16 20:32:43 88

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除