nuoline-CSDN博客

原创网易有道面试题

1，已知已经排好序的整形数组，求交集。int f(int *a,int *b,int n,int m){int i=0,j=0;while(i{if(a[i]==b[j]){printf("%d",a[i]);++i;++j;}else if(a[i]>b[j]){++j;}else {++i;}}}2，假如一个文件名为test，里面有很多行记录，则去掉重复行记录

2013-02-25 18:37:32 970

原创计算机类论文容易发表的期刊

【杂志名称】机械科学与技术【杂志文章包含专业】理论研究设计计算机构分析工艺.设备.材料实验研究 CAD/CAM/CAE【投稿费用】审稿费100，版面费每页约200－250，图片另收费（好像是10/张）【杂志级别】中文核心期刊中国科技论文统计源期刊 EI源【稿酬回报】按字数不同，大约每页不到50【投稿感受】只要有新意，比较容易投中，本人投了几篇，保持全中。只是发表周期有些长（从投到发

2013-02-25 18:37:30 5108 1

原创数据挖掘数据集下载资源

1、气候监测数据集 http://cdiac.ornl.gov/ftp/ndp026b2、几个实用的测试数据集下载的网站http://www.fs.fed.us/fire/fuelman/http://www.cs.toronto.edu/~roweis/data.htmlhttp://www.cs.toronto.edu/~roweis/data.htmlhttp://kdd.i

2013-02-25 18:37:28 5261

原创 mahout贝叶斯分类示例异常处理

参照https://cwiki.apache.org/confluence/display/MAHOUT/Twenty+Newsgroups的步骤，其中关于hadoop与mahout的配置启动之类的以前的文章都记录过，此处直接在mahout-0.4上运行例子过程(当然也在mahot-0.3上进行了测试，一切正常)。首先，下载数据集20news-bydate.tar.gz，在$MAHOUT_HO

2013-02-25 18:37:26 1127

原创 Hadoop平台优化综述（二）

4. 从系统实现角度进行优化4.1 在可移植性和性能之间进行权衡论文[16]主要针对HDFS进行了优化，它分析了HDFS性能低下的两个原因：调度延迟和可移植性假设。（1）调度延迟Hadoop采用的是动态调度算法，即：当某个tasktracker上出现空slot时，它会通过HEARBEAT（默认时间间隔为3s，当集群变大时，会适当调大）告诉jobtracker，之后job

2013-02-25 18:37:23 490

原创 Hadoop平台优化综述（一）-转

1. 概述随着企业要处理的数据量越来越大，MapReduce思想越来越受到重视。Hadoop是MapReduce的一个开源实现，由于其良好的扩展性和容错性，已得到越来越广泛的应用。Hadoop作为一个基础数据处理平台，虽然其应用价值已得到大家认可，但仍存在很多问题，以下是主要几个：（1） Namenode/jobtracker单点故障。Hadoop采用的是master/s

2013-02-25 18:37:21 491

原创自然语言处理资源与工具

Bibliographies Bibliography of constructive induction - featureengineeringBibliographyon Automated Text CategorizationBibliography - Text CategorizationAutomatic Text Processing related shor

2013-02-25 18:37:19 1992

原创 hive和hbase的整合-转

对 hive_hbase-handler.jar 这个东东还有点兴趣，有空来磋磨一下。一、2个注意事项：1、需要的软件有Hadoop、Hive、Hbase、Zookeeper，Hive与HBase的整合对Hive的版本有要求，所以不要下载.0.6.0以前的老版本，Hive.0.6.0的版本才支持与HBase对接，因此在Hive的lib目录下可以看见多了hive_hbase-handler.j

2013-02-25 18:37:17 434

原创 hypertable系统简介

hypertable是什么？hypertable是一个高性能，分布式，开源，面向列的数据库（如果完全支持SQL那将是多么变态地强大..）。它被设计为在廉价普通的计算机硬件上存储,处理大量数据的系统，hypertable是以google的bigtable为原型的。hypertable系统简介hypertable的原始发行版包含c++ API和HQL（hypertable查询语句，跟SQL很想

2013-02-25 18:37:15 776

原创百度基础架构部马如悦：我的Hadoop…

马如悦：大家下午好，我是来自百度基础架构部高级工程师。我先自我介绍一下，我是咱们中国第一批用Hadoop，后来转向开源，从开始到现在一直用Hadoop，在这里说一下自己的体会可能会对大家有用。今天讲一下百度Hadoop做的怎么样，原来讲的是基础性的东西。以前我善于听完以后发表一我下自己的看法，比如今天是云计算技术交流会，讲B2C，讲大规模互联网架构，我听完刚才一直在想到底Hadoop跟云计算有

2013-02-25 18:37:12 3527

原创 mahout贝叶斯并行分类分析

贝叶斯并行分类分析1 贝叶斯训练器所在包：Packageorg.apache.mahout.classifier.bayes实现机制The implementation isdivided up into three parts:The Trainer -- responsible for doing thecounting of the words and the label

2013-02-25 18:37:10 900

原创 Hadoop冗余机制实验验证

Hadoop冗余机制实验验证1 目的Hadoop视硬件错误为常态，并通过块的冗余存储机制保证数据的高可靠性。在大多数情况下，副本系数是3，HDFS的存放策略是将一个副本存放在本地机架的节点上，一个副本放在同一机架的另一个节点上，最后一个副本放在不同机架的节点上。我们将通过实验验证Hadoop的数据高可靠性。2 概述实验通过对1GB的数据进行排序，分别设置副本系数为1和3来进行对比验

2013-02-25 18:37:08 4033 1

原创开源的桌面搜索引擎

1．Regainregain是一款与Web搜索引擎类似的桌面搜索引擎系统，其不同之处在于regain不是对Internet内容的搜索，而是针对自己的文档或文件的搜索，使用regain可以轻松地在几秒内完成大量数据（许多个G）的搜索。Regain采用了Lucene的搜索语法，因此支持多种查询方式，支持多索引的搜索及基于文件类型的高级搜索，并且能实现URL重写及文件到HTTP的桥接，并且对中文也提供

2013-02-25 18:37:06 3817

转载左右脑之争

原文地址：左右脑之争作者：房子好玩的一幅图片：

2013-02-25 18:37:04 499

原创 Spring中applicationContext.xml的…

Spring中applicationContext.xml的bean里的id和name属性区别<bean id="person"class="org.spring.bean.Person"> <propertyname="name"> zhangsan /property> <propertyname="age"> 23 注意：配置bean的开始,

2013-02-25 18:37:01 474

原创 mysql 使用命令行导入导出sql脚本

mysql使用命令行导入导出sql脚本1.导出数据库中所有的表mysqldump -u用户名 -p 数据库名 > 存放位置范例：mysqldump -uroot -p abc > ./my.sql（导出数据库abc到abc.sql文件）提示输入密码时，输入该数据库用户名的密码。2.导入sql脚本mysql -u用户名 -p 数据库名数据库脚本.sql范例：

2013-02-25 18:36:59 705

原创 MyEclipse-6.5注册码生成器源码

打开MyEclipse新建一个Java工程，然后新建类，粘贴如下代码，即可生成MyEclipse的注册码importjava.io.BufferedReader; importjava.io.IOException; importjava.io.InputStreamReader; public class MyEclipseGen{ private s

2013-02-25 18:36:57 24906 16

原创 mysql修改root密码

MySQL root密码忘记的解决1.先停掉mysql# sudo /etc/init.d/mysql stop2.以--skip-grant-table 的參數啟動mysql# sudo mysqld_safe --skip-grant-table&3. 更改root 密码为：123456# mysql mysqlmysql> UPDATE user SET password=pa

2013-02-25 18:36:55 607

原创 mahout并行分类bayes源码分析-2

2模型 BayesModel 类时用来表示训练结果的数据结构，BayesClassifier 需要使用。is the data structure used to represent the results of the trainingfor use by the BayesClassifier. A Model can be created by hand, or,if using

2013-02-25 18:36:53 1275

原创 mahout贝叶斯并行分类源码分析

1 贝叶斯训练器所在包：Packageorg.apache.mahout.classifier.bayes实现机制The implementation isdivided up into three parts:The Trainer -- responsible for doing thecounting of the words and the labelsThe Mo

2013-02-25 18:36:51 1425

原创 mahout源码分析-02

AdaptiveLogisticRegression.java 实现了OnlineLearner接口。维护一个普通的OnlineLogisticRegression学习器池，池中的每一个元素都有不同的学习率。一个主意是学习器池实际维护一个CrossFoldLearners（包含数个OnlineLogisticRegression对象）。这些池允许我们进行性能估计如果对数据做很多次时。如果有

2013-02-25 18:36:48 1739

原创 mahout中的org.apache.mahout.clas…

Package org.apache.mahout.classifier.sgd一，接口概要1，Interface GradientProvides the ability to inject a gradient into the SGD logisticregresion. Typical uses of this are to use a ranking score such as

2013-02-25 18:36:46 768

原创 mahout分类源码分析-01

mahout分类源码分析接口Interface OnlineLearner：实现的类：AbstractOnlineLogisticRegression, AdaptiveLogisticRegression,CrossFoldLearner, OnlineLogisticRegression方法如下：void train(int actual, Vector in

2013-02-25 18:36:44 600

原创 hadoop hive

DDL Operations创建表hive> CREATE TABLE pokes (foo INT, barSTRING);创建表并创建索引字段dshive> CREATE TABLE invites (foo INT, bar STRING)PARTITIONED BY (ds STRING);显示所有表hive> SHOW TABLES;按正条件（正则表达式）显示表，hi

2013-02-25 18:36:42 410

原创 mahout转化成eclipse项目并运行示…

1、从http://www.apache.org/dyn/closer.cgi/lucene/mahout/下载mahout0.3代码2、下载maven http://maven.apache.org/ 左侧菜单中的getmevan3、解压两个包4、打开命令行窗口5、进行mahout目录:cd mahout保存目录/6、让maven生成eclipse项目,在命令行中执行:maven

2013-02-25 18:36:35 1837

原创关于mahout中的canop聚类

1.Canopy聚类Canopy聚类是一种简单、快速、但不太准确的聚类方法。该算法需一种快速的近似距离度量方法和两个距离阈值T1>T2。while(没有标记的数据点){ 选择一个没有强标记的数据点p 把p看作一个新Canopy c的中心离p距离离p距离}Canopy聚类常作为更强聚类方法的初始步骤。mahout Canopy聚类实现，采用了两

2013-02-25 18:36:33 944

原创 Mahout中分布式bayes实现-转

Mahout中实现了不少分布式数据挖掘算法，协同推荐，分类聚类算法，协同推荐前段时间看了一下，大概明白了里面的原理，想来也不是高不可攀的东西。这几天要回学校了，在公司也没有多少事情，所以就查看了一些bayes方面的代码，如果有时间的话，在看看聚类以及RandomForest算法的一些实现。Mahout中的bayes实现分为三部分，1. 样本构建; 通过org.apache.mah

2013-02-25 18:36:30 486

原创 Mahout 0.3: 机器学习开源项目

有关机器学习的开源项目Apache Mahout三月份的时候推出了它的0.3版本，这个新版本在之前的基础上添加了一些新功能，比之前的版本更为稳定，性能也有相应的提升。InfoQ采访了ApacheMahout项目的开发者Grant Ingersoll和TedDunning，其中Grant Ingresoll也是该项目的创始人之一。过去十年里，从大量原始数据中解析出相关信息的需求急剧增长，以

2013-02-25 18:36:28 594

转载 Hadoop下配置kmeans计算

原文地址：Hadoop下配置kmeans计算作者：bicloudHadoop下配置kmeans计算Rehl5 + hadoop-0.19.21下载mahouthttp://apache.freelamp.com//mahout/2解压缩mahouttar zxvf mahout-0.3.tar.gz3配置环境变量exportHADOOP_CONF_DIR=/usr/local/ha

2013-02-25 18:36:26 639

原创 Ubuntu下的vncserver

Ubuntu下包含2种远程桌面的方式：VINO-Server以及VNC Server。其中Vino-Server是Ubuntu自带的远程桌面服务器，也就是在系统(System) —> 首选项(Preferences) —> 远程桌面(RemoteDesktop)下，可以很容易开启，然后就可以使用VNCViewer进行远程桌面连接。具体开通办法，可以参见《Ubuntu下开启远程桌面的方法》。不

2013-02-25 18:36:24 3772

原创 xenserver的问题-转

说说我这十天的用Xenserver5.5体验云的感觉吧！第一天，在exachina.com租用了一台美国服务器,硬件配置为:处理器: EXON210四核心内存：8G硬盘：1T13个IP，100Mbps端口(进出各100Mbps)机房把Xenserver给我安装好了。将用户名，和管理账号，IP信息等发了邮件给我。当天我收到邮件很高兴，可以体验一把云技术(思杰有句产品广告：为云而生)了。

2013-02-25 18:36:22 1562

原创 Mahout-0.3

有关机器学习的开源项目Apache Mahout三月份的时候推出了它的0.3版本，这个新版本在之前的基础上添加了一些新功能，比之前的版本更为稳定，性能也有相应的提升。InfoQ采访了ApacheMahout项目的开发者Grant Ingersoll和TedDunning，其中Grant Ingresoll也是该项目的创始人之一。过去十年里，从大量原始数据中解析出相关信息的需求急剧增长，以

2013-02-25 18:36:19 537

原创 hadoop.terasort测试

硬件配置：node configuration: 2*4-core 16GB-ram 4*1T-storagenode number: 11 软件配置(其他是默认设置)：replication:1---------------------------------测试过程中调节的参数：mapred.tasktracker.map.tasks.maximum=4(共八个cores,留一个给d

2013-02-25 18:36:17 1127

原创一个Mapreduce 实例

一个Mapreduce 实例下载下面的电子书要 us-ascii 编码的The Outline ofScience, Vol. 1 (of 4) by J. Arthur ThomsonThe Notebooks ofLeonardo Da VinciUlysses by JamesJoyce把上面的文件下载后放到一个文件夹下比如我的 /data/gutenberg启动had

2013-02-25 18:36:15 366

原创 Hadoop安装后的集群基准测试

一旦创建Hadoop集群并开始运行，我们需要给予用户权限使用它。这就是需要为每一个用户创建一个目录，并且对它设置权限许可。这就需要为每一个用户创建一个主目录，并且对它设置权限许可：[root@slave1 hadoop-0.20.2]#hadoop fs -mkdir /usr/username[root@slave1 hadoop-0.20.2]#hadoop fs -chown /us

2013-02-25 18:36:13 407

原创 Hadoop排序

SortBenchmark是一个专门从事排序基准评估的非盈利机构，该机构每年都会举办一次排序基准评估比赛，很多公司和学术机构都会带着他们最新的研究成果来参加这个比赛，以评估他们的研究成果。在2007之前，该机构的排序基准评估比赛的主办和管理主要都是由JimGray来负责，他是数据库界的超级牛人、1998年图灵奖获得者。但不幸的是，JimGray在2007年1月28日早上独自乘船离开San

2013-02-25 18:36:11 577

原创基于HDFS的FTP

一家公司使用apache的ftpserver开发框架开发了针对hadoop的hdfs文件系统的ftp服务器,当然是开源的.站点:http://www.hadoop.iponweb.net/Home/hdfs-over-ftp安装过程非常简单,本人只是在linux下安装过,windows下没有成功安装,linux下安装步骤如下:1.下载安装文件并解压http://www.hadoop.ipo

2013-02-25 18:36:09 554

原创 ubuntu 10.04下安装卸载 VMWare Pl…

比如下载下来的VMware Player文件名为VMware-Player-3.1.0-261024.i386.bundle在终端中转到文件放置的目录，执行sudo sh VMware-Player-3.1.0-261024.i386.bundle安装就开始了。卸载方法：在终端中输入sudo vmware-installer -u vmware-player就能卸载卸载

2013-02-25 18:36:06 351

原创我的博客今天0岁339天啦！

我的博客今天0岁339天啦！ 2009年10月21日，在新浪博客安家。 2009年11月01日，写下了第一篇博文：《开源云计算平台简介》。这些年来，新浪博客，陪伴着我一点一点谱写生活。

2013-02-25 18:36:04 405

原创基于Mysql的struts整合hibernate中…

在进行web开发时经常会遇到中文显示乱码的问题，这是由于Java内置的字符集与页面以及数据库内部的字符集不一致所导致，为了解决这个问题，可以定义一个Filter，然后在web.xml中配置相应的参数即可，下面结合自己的实践来给出一种解决方案。 1数据库编码配置，以Mysql为例默认安装的mysql的字符集是不支持中文的，我们可以修改相关的配置使之支持，操作如下：在my

2013-02-25 18:36:02 435

源云计算相关软件介绍.

搜索引擎中的Crawlings技术PPT

空空如也