自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

nuoline的专栏

关注NLP,ML,云计算,大数据,hadoop 我的微博:http://weibo.com/nuoline

  • 博客(263)
  • 资源 (3)
  • 收藏
  • 关注

原创 网易有道面试题

1,已知已经排好序的整形数组,求交集。int f(int *a,int *b,int n,int m){int i=0,j=0;while(i{if(a[i]==b[j]){printf("%d",a[i]);++i;++j;}else if(a[i]>b[j]){++j;}else {++i;}}}2,假如一个文件名为test,里面有很多行记录,则去掉重复行记录

2013-02-25 18:37:32 970

原创 计算机类论文容易发表的期刊

【杂志名称】机械科学与技术【杂志文章包含专业】理论研究 设计计算机构分析 工艺.设备.材料 实验研究 CAD/CAM/CAE【投稿费用】审稿费100,版面费每页约200-250,图片另收费(好像是10/张)【杂志级别】中文核心期刊中国科技论文统计源期刊 EI源【稿酬回报】按字数不同,大约每页不到50【投稿感受】只要有新意,比较容易投中,本人投了几篇,保持全中。只是发表周期有些长(从投到发

2013-02-25 18:37:30 5108 1

原创 数据挖掘数据集下载资源

1、气候监测数据集 http://cdiac.ornl.gov/ftp/ndp026b2、几个实用的测试数据集下载的网站http://www.fs.fed.us/fire/fuelman/http://www.cs.toronto.edu/~roweis/data.htmlhttp://www.cs.toronto.edu/~roweis/data.htmlhttp://kdd.i

2013-02-25 18:37:28 5261

原创 mahout贝叶斯分类示例异常处理

参照https://cwiki.apache.org/confluence/display/MAHOUT/Twenty+Newsgroups的步骤,其中关于hadoop与mahout的配置启动之类的以前的文章都记录过,此处直接在mahout-0.4上运行例子过程(当然也在mahot-0.3上进行了测试,一切正常)。首先,下载数据集20news-bydate.tar.gz,在$MAHOUT_HO

2013-02-25 18:37:26 1127

原创 Hadoop平台优化综述(二)

4.    从系统实现角度进行优化4.1   在可移植性和性能之间进行权衡论文[16]主要针对HDFS进行了优化,它分析了HDFS性能低下的两个原因:调度延迟和可移植性假设。(1) 调度延迟Hadoop采用的是动态调度算法,即:当某个tasktracker上出现空slot时,它会通过HEARBEAT(默认时间间隔为3s,当集群变大时,会适当调大)告诉jobtracker,之后job

2013-02-25 18:37:23 490

原创 Hadoop平台优化综述(一)-转

1.    概述随着企业要处理的数据量越来越大,MapReduce思想越来越受到重视。Hadoop是MapReduce的一个开源实现,由于其良好的扩展性和容错性,已得到越来越广泛的应用。Hadoop作为一个基础数据处理平台,虽然其应用价值已得到大家认可,但仍存在很多问题,以下是主要几个:(1)    Namenode/jobtracker单点故障。Hadoop采用的是master/s

2013-02-25 18:37:21 491

原创 自然语言处理资源与工具

Bibliographies Bibliography of constructive induction - featureengineeringBibliographyon Automated Text CategorizationBibliography - Text CategorizationAutomatic Text Processing related shor

2013-02-25 18:37:19 1992

原创 hive和hbase的整合-转

对 hive_hbase-handler.jar 这个东东还有点兴趣,有空来磋磨一下。一、2个注意事项:1、需要的软件有Hadoop、Hive、Hbase、Zookeeper,Hive与HBase的整合对Hive的版本有要求,所以不要下载.0.6.0以前的老版本,Hive.0.6.0的版本才支持与HBase对接,因此在Hive的lib目录下可以看见多了hive_hbase-handler.j

2013-02-25 18:37:17 434

原创 hypertable系统简介

hypertable是什么?hypertable是一个高性能,分布式,开源,面向列的数据库(如果完全支持SQL那将是多么变态地强大..)。它被设计为在廉价普通的计算机硬件上存储,处理大量数据的系统,hypertable是以google的bigtable为原型的。hypertable系统简介hypertable的原始发行版包含c++ API和HQL(hypertable查询语句,跟SQL很想

2013-02-25 18:37:15 776

原创 百度基础架构部马如悦:我的Hadoop…

马如悦:大家下午好,我是来自百度基础架构部高级工程师。我先自我介绍一下,我是咱们中国第一批用Hadoop,后来转向开源,从开始到现在一直用Hadoop,在这里说一下自己的体会可能会对大家有用。今天讲一下百度Hadoop做的怎么样,原来讲的是基础性的东西。以前我善于听完以后发表一我下自己的看法,比如今天是云计算技术交流会,讲B2C,讲大规模互联网架构,我听完刚才一直在想到底Hadoop跟云计算有

2013-02-25 18:37:12 3527

原创 mahout贝叶斯并行分类分析

贝叶斯并行分类分析1 贝叶斯训练器所在包:Packageorg.apache.mahout.classifier.bayes实现机制The implementation isdivided up into three parts:The Trainer -- responsible for doing thecounting of the words and the label

2013-02-25 18:37:10 900

原创 Hadoop冗余机制实验验证

Hadoop冗余机制实验验证1 目的Hadoop视硬件错误为常态,并通过块的冗余存储机制保证数据的高可靠性。在大多数情况下,副本系数是3,HDFS的存放策略是将一个副本存放在本地机架的节点上,一个副本放在同一机架的另一个节点上,最后一个副本放在不同机架的节点上。我们将通过实验验证Hadoop的数据高可靠性。2 概述实验通过对1GB的数据进行排序,分别设置副本系数为1和3来进行对比验

2013-02-25 18:37:08 4033 1

原创 开源的桌面搜索引擎

1.Regainregain是一款与Web搜索引擎类似的桌面搜索引擎系统,其不同之处在于regain不是对Internet内容的搜索,而是针对自己的文档或文件的搜索,使用regain可以轻松地在几秒内完成大量数据(许多个G)的搜索。Regain采用了Lucene的搜索语法,因此支持多种查询方式,支持多索引的搜索及基于文件类型的高级搜索,并且能实现URL重写及文件到HTTP的桥接,并且对中文也提供

2013-02-25 18:37:06 3817

转载 左右脑之争

原文地址:左右脑之争作者:房子好玩的一幅图片:

2013-02-25 18:37:04 499

原创 Spring中applicationContext.xml的…

Spring中applicationContext.xml的bean里的id和name属性区别<bean id="person"class="org.spring.bean.Person"> <propertyname="name">     zhangsan /property> <propertyname="age">    23 注意:配置bean的开始,

2013-02-25 18:37:01 474

原创 mysql&nbsp;使用命令行导入导出sql脚本

mysql使用命令行导入导出sql脚本1.导出数据库中所有的表mysqldump -u用户名 -p 数据库名 > 存放位置范例:mysqldump -uroot -p abc >  ./my.sql(导出数据库abc到abc.sql文件)提示输入密码时,输入该数据库用户名的密码。2.导入sql脚本mysql -u用户名 -p 数据库名 数据库脚本.sql范例:

2013-02-25 18:36:59 705

原创 MyEclipse-6.5注册码生成器源码

打开MyEclipse新建一个Java工程,然后新建类,粘贴如下代码,即可生成MyEclipse的注册码importjava.io.BufferedReader;   importjava.io.IOException;   importjava.io.InputStreamReader;    public class MyEclipseGen{   private s

2013-02-25 18:36:57 24906 16

原创 mysql修改root密码

MySQL root密码忘记的解决1.先停掉mysql# sudo /etc/init.d/mysql stop2.以--skip-grant-table 的參數啟動mysql# sudo mysqld_safe --skip-grant-table&3. 更改root 密码为:123456# mysql mysqlmysql> UPDATE user SET password=pa

2013-02-25 18:36:55 607

原创 mahout并行分类bayes源码分析-2

2模型 BayesModel 类时用来表示训练结果的数据结构,BayesClassifier  需要使用。is the data structure used to represent the results of the trainingfor use by the BayesClassifier. A Model can be created by hand, or,if using

2013-02-25 18:36:53 1275

原创 mahout贝叶斯并行分类源码分析

1 贝叶斯训练器所在包:Packageorg.apache.mahout.classifier.bayes实现机制The implementation isdivided up into three parts:The Trainer -- responsible for doing thecounting of the words and the labelsThe Mo

2013-02-25 18:36:51 1425

原创 mahout源码分析-02

AdaptiveLogisticRegression.java 实现了OnlineLearner接口。维护一个普通的OnlineLogisticRegression学习器池,池中的每一个元素都有不同的学习率。一个主意是学习器池实际维护一个CrossFoldLearners(包含数个OnlineLogisticRegression对象)。这些池允许我们进行性能估计如果对数据做很多次时。如果有

2013-02-25 18:36:48 1739

原创 mahout中的org.apache.mahout.clas…

Package org.apache.mahout.classifier.sgd一,接口概要1,Interface GradientProvides the ability to inject a gradient into the SGD logisticregresion. Typical uses of this are to use a ranking score such as

2013-02-25 18:36:46 768

原创 mahout分类源码分析-01

mahout分类源码分析接口Interface OnlineLearner:实现的类:AbstractOnlineLogisticRegression, AdaptiveLogisticRegression,CrossFoldLearner, OnlineLogisticRegression方法如下:void train(int actual,          Vector in

2013-02-25 18:36:44 600

原创 hadoop&nbsp;hive

DDL Operations创建表hive> CREATE TABLE pokes (foo INT, barSTRING);创建表并创建索引字段dshive> CREATE TABLE invites (foo INT, bar STRING)PARTITIONED BY (ds STRING);显示所有表hive> SHOW TABLES;按正条件(正则表达式)显示表,hi

2013-02-25 18:36:42 410

原创 mahout转化成eclipse项目并运行示…

1、从http://www.apache.org/dyn/closer.cgi/lucene/mahout/下载mahout0.3代码2、下载maven http://maven.apache.org/  左侧菜单中的getmevan3、解压两个包4、打开命令行窗口5、进行mahout目录:cd mahout保存目录/6、让maven生成eclipse项目,在命令行中执行:maven

2013-02-25 18:36:35 1837

原创 关于mahout中的canop聚类

1.Canopy聚类Canopy聚类是一种简单、快速、但不太准确的聚类方法。该算法需一种快速的近似距离度量方法和两个距离阈值T1>T2。while(没有标记的数据点){   选择一个没有强标记的数据点p   把p看作一个新Canopy c的中心   离p距离   离p距离}Canopy聚类常作为更强聚类方法的初始步骤。mahout Canopy聚类实现 ,采用了两

2013-02-25 18:36:33 944

原创 Mahout中分布式bayes实现-转

Mahout中实现了不少分布式数据挖掘算法,协同推荐,分类聚类算法,协同推荐前段时间看了一下,大概明白了里面的原理,想来也不是高不可攀的东西。这几天要回学校了,在公司也没有多少事情,所以就查看了一些bayes方面的代码,如果有时间的话,在看看聚类以及RandomForest算法的一些实现。Mahout中的bayes实现分为三部分,1.      样本构建; 通过org.apache.mah

2013-02-25 18:36:30 486

原创 Mahout&nbsp;0.3:&nbsp;机器学习开源项目

有关机器学习的开源项目Apache Mahout三月份的时候推出了它的0.3版本,这个新版本在之前的基础上添加了一些新功能,比之前的版本更为稳定,性能也有相应的提升。InfoQ采访了ApacheMahout项目的开发者Grant Ingersoll和TedDunning,其中Grant Ingresoll也是该项目的创始人之一。过去十年里,从大量原始数据中解析出相关信息的需求急剧增长,以

2013-02-25 18:36:28 594

转载 Hadoop下配置kmeans计算

原文地址:Hadoop下配置kmeans计算作者:bicloudHadoop下配置kmeans计算Rehl5 + hadoop-0.19.21下载mahouthttp://apache.freelamp.com//mahout/2解压缩mahouttar zxvf mahout-0.3.tar.gz3配置环境变量exportHADOOP_CONF_DIR=/usr/local/ha

2013-02-25 18:36:26 639

原创 Ubuntu下的vncserver

Ubuntu下包含2种远程桌面的方式:VINO-Server以及VNC Server。其中Vino-Server是Ubuntu自带的远程桌面服务器,也就是在系统(System) —> 首选项(Preferences) —> 远程桌面(RemoteDesktop)下,可以很容易开启,然后就可以使用VNCViewer进行远程桌面连接。具体开通办法,可以参见《Ubuntu下开启远程桌面的方法》。不

2013-02-25 18:36:24 3772

原创 xenserver的问题-转

说说我这十天的用Xenserver5.5体验云的感觉吧!第一天,在exachina.com租用了一台美国服务器,硬件配置为:处理器: EXON210四核心内存:8G硬盘:1T13个IP,100Mbps端口(进出各100Mbps)机房把Xenserver给我安装好了。将用户名,和管理账号,IP信息等发了邮件给我。当天我收到邮件很高兴,可以体验一把云技术(思杰有句产品广告:为云而生)了。

2013-02-25 18:36:22 1562

原创 Mahout-0.3

有关机器学习的开源项目Apache Mahout三月份的时候推出了它的0.3版本,这个新版本在之前的基础上添加了一些新功能,比之前的版本更为稳定,性能也有相应的提升。InfoQ采访了ApacheMahout项目的开发者Grant Ingersoll和TedDunning,其中Grant Ingresoll也是该项目的创始人之一。过去十年里,从大量原始数据中解析出相关信息的需求急剧增长,以

2013-02-25 18:36:19 537

原创 hadoop.terasort测试

硬件配置:node configuration: 2*4-core 16GB-ram 4*1T-storagenode number: 11 软件配置(其他是默认设置):replication:1---------------------------------测试过程中调节的参数:mapred.tasktracker.map.tasks.maximum=4(共八个cores,留一个给d

2013-02-25 18:36:17 1127

原创 一个Mapreduce&nbsp;实例

一个Mapreduce 实例下载下面的电子书 要 us-ascii 编码的The Outline ofScience, Vol. 1 (of 4) by J. Arthur ThomsonThe Notebooks ofLeonardo Da VinciUlysses by JamesJoyce把上面的文件下载后放到一个文件夹下 比如我的 /data/gutenberg启动had

2013-02-25 18:36:15 366

原创 Hadoop安装后的集群基准测试

一旦创建Hadoop集群并开始运行,我们需要给予用户权限使用它。这就是需要为每一个用户创建一个目录,并且对它设置权限许可。这就需要为每一个用户创建一个主目录,并且对它设置权限许可:[root@slave1 hadoop-0.20.2]#hadoop fs -mkdir /usr/username[root@slave1 hadoop-0.20.2]#hadoop fs -chown /us

2013-02-25 18:36:13 407

原创 Hadoop排序

SortBenchmark是一个专门从事排序基准评估的非盈利机构,该机构每年都会举办一次排序基准评估比赛,很多公司和学术机构都会带着他们最新的研究成果来参加这个比赛,以评估他们的研究成果。在2007之前,该机构的排序基准评估比赛的主办和管理主要都是由JimGray来负责,他是数据库界的超级牛人、1998年图灵奖获得者。但不幸的是,JimGray在2007年1月28日早上独自乘船离开San

2013-02-25 18:36:11 577

原创 基于HDFS的FTP

一家公司使用apache的ftpserver开发框架开发了针对hadoop的hdfs文件系统的ftp服务器,当然是开源的.站点:http://www.hadoop.iponweb.net/Home/hdfs-over-ftp安装过程非常简单,本人只是在linux下安装过,windows下没有成功安装,linux下安装步骤如下:1.下载安装文件并解压http://www.hadoop.ipo

2013-02-25 18:36:09 554

原创 ubuntu&nbsp;10.04下安装卸载&nbsp;VMWare&nbsp;Pl…

比如下载下来的VMware Player文件名为VMware-Player-3.1.0-261024.i386.bundle在终端中转到文件放置的目录,执行sudo sh VMware-Player-3.1.0-261024.i386.bundle安装就开始了。卸载方法:在终端中输入sudo vmware-installer -u vmware-player就能卸载卸载

2013-02-25 18:36:06 351

原创 我的博客今天0岁339天啦!

我的博客今天0岁339天啦! 2009年10月21日,在新浪博客安家。 2009年11月01日,写下了第一篇博文:《开源云计算平台简介》。 这些年来,新浪博客,陪伴着我一点一点谱写生活。

2013-02-25 18:36:04 405

原创 基于Mysql的struts整合hibernate中…

在进行web开发时经常会遇到中文显示乱码的问题,这是由于Java内置的字符集与页面以及数据库内部的字符集不一致所导致,为了解决这个问题,可以定义一个Filter,然后在web.xml中配置相应的参数即可,下面结合自己的实践来给出一种解决方案。    1数据库编码配置,以Mysql为例    默认安装的mysql的字符集是不支持中文的,我们可以修改相关的配置使之支持,操作如下:  在my

2013-02-25 18:36:02 435

源云计算相关软件介绍.

详细描述了目前常用的主流云计算平台,并对此作了比较细致的比较。

2012-03-10

搜索引擎中的Crawlings技术PPT

详细介绍了搜索引擎技术以及Crawlings技术

2012-03-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除