纳米团队-CSDN博客

转载数据集

来自互联网：1、气候监测数据集 http://cdiac.ornl.gov/ftp/ndp026b2、几个实用的测试数据集下载的网站http://www.cs.toronto.edu/~roweis/data.htmlhttp://www.cs.toronto.edu/~roweis/data.htmlhttp://kdd.ics.uci.edu/summary.tas

2013-07-13 18:47:33 946

转载信息检索（IR）的评价指标介绍 - 准确率、召回率、F1、mAP、ROC、AUC

在信息检索、分类体系中，有一系列的指标，搞清楚这些指标对于评价检索和分类性能非常重要，因此最近根据网友的博客做了一个汇总。准确率、召回率、F1信息检索、分类、识别、翻译等领域两个最基本指标是召回率(Recall Rate)和准确率(Precision Rate)，召回率也叫查全率，准确率也叫查准率，概念公式: 召回率(Recall) =

2013-07-08 19:48:52 886 4

转载 hadoop 参数

集群升级，参考一下。http://www.tbdata.org/archives/1470hadoop作业调优参数整理及原理摘要：1 Map side tuning参数 1.1 MapTask运行内部原理当map task开始运算，并产生中间数据时，其产生的中间结果并非直接就简单的写入磁盘。这中间的过程比较复杂，并且利用到了内存buffer来进行已经产生1 Map s

2013-06-29 10:52:59 478

原创 elenuimrc+firebug+elenuimide模拟浏览器

花了一整天时间终于搞定ajax和js渲染的WEB页面，现在爬虫什么的基本就没大问题了，不过速度有些慢，有时间在搞快速的把。

2013-06-10 22:01:47 560

原创淘宝宝贝评价信息的爬取

先把最近干的事情记录下，具体内容以后补充。

2013-06-08 00:24:33 2112 1

原创 pagerank

1基本思想通过对由超过 50,000 万个变量和 20 亿个词汇组成的方程进行计算，PageRank 能够对网页的重要性做出客观的评价。PageRank 并不计算直接链接的数量，而是将从网页 A 指向网页 B 的链接解释为由网页 A 对网页 B 所投的一票。这样，PageRank 会根据网页 B 所收到的投票数量来评估该页的重要性。此外，PageRank 还会评估每个投票网页的重要性，因为某

2013-04-24 00:14:44 727

原创 hadoop的shuffle过程

1 综述shuffle过程分两阶段，一个是mapper端的清理，一个是reducer端。2 mapper端处理1>划分 Mapper处理后得到对，例如。现在需要决定由哪个reducer来处理这个键值对，现在就需要Partitioner通过hash（键）来决定，通过实现这个getPartition(KEY key, VALUE value, int numPar

2013-04-23 20:51:03 599

原创 Kmeans

1 基本思想KMeans算法的基本思想就是将未知的数据集通过一定的相似性度量将未知类别的数据集自然地划分为K个数据集合，使得衡量标准达到比较好的值或者数据集合中心（采用均值）不变。也就是把n的对象根据他们的属性分为k个分割，k 。它与处理混合正态分布的最大期望算法很相似，因为他们都试图找到数据中自然聚类的中心。它假设对象属性来自于空间向量，并且目标是使各个群组内部的均方误差总和最小。2

2013-04-22 23:56:40 613

原创 hadoop自定义文件输出格式

自定义文件的输出格式相对于输入格式来说就简单一些，在自己的输出格式里面实现RecordWriter接口即可，关键是同步写方法的实现可以把key,value的输出控制的很灵活，看看例子吧：public class ImageOutputFormat extends TextOutputFormat { protected static class Writer extends R

2013-04-22 17:03:14 914

首先还是先讲下hadoop的文件输入经过这么个过程处理的，文件——>splits划分成N多inputsplit(这就是每个mapper处理的数据单元)——>RecordReader划分成M多对（每次map()函数处理的数据单元）。hadoop默认使用的是TextInputFormat的格式继承了FileInputFormat,要实现自己的文件输入格式，就需要继承FileInputFormat类.。

2013-04-22 16:20:17 692

原创 hadoop自定义数据类型

很多时候我们都需要实现自己的数据类型，可以通过实现Writable接口来实现自己的需要，其中只要实现两个方法即可，readFields(DataInput in) 方法和 write(DataOutput out)方法。举例如下供参考：public class ImageVector extends Vector implements Writable{ public dou

2013-04-22 15:48:37 584

原创 hadoop自定义多文件及多文件夹输出

博主用的是hadoop1.0.4版本。实现多文件及多文件夹输出主要用到MultipleOutputs这个类。这是包路径 org.apache.hadoop.mapreduce.lib.output。偏好用最简单的例子分举例分析如下：public class WordCount { public static class TokenizerMapper extends Mappe

2013-04-22 15:25:23 826

原创朴素贝叶斯

1基本思想朴素贝叶斯法是基于贝叶斯定理和特征条件独立性假设的分类方法。对于给定的数据集，首先基于特征条件的独立假设学习输入输出的联合概率分布；然后基于此模型，对给定的输入X，利用贝叶斯定理求出后验概率最大的输出Y。2举例确定x=(2,S)的标记y，其中X1,X2为特征，取值的集合为{1,2}，{S，M}，Y为类标记{1，-1}。训练数据（经验数据）：1

2013-04-20 23:50:20 764

原创 KNN算法

1 基本思想所谓K近邻算法，即是给定一个训练数据集，对新的输入实例，在训练数据集中找到与该实例最邻近的K个实例（也就是上面所说的K个邻居），这K个实例的多数属于某个类，就把该输入实例分类到这个类中。2 举例（借用大神们的图例）如上图所示，有两种类型的数据三角形和距形，待测数据为原形，需要判断原型数据是属于哪种类型的数据。我

2013-04-20 23:24:05 1447

A-Three

转载数据集

转载信息检索（IR）的评价指标介绍 - 准确率、召回率、F1、mAP、ROC、AUC

转载 hadoop 参数

原创 elenuimrc+firebug+elenuimide模拟浏览器

原创用hadoop写了个简单的并行爬虫

原创成功attack了某位童鞋的网站

原创项目上利用ehcache实现了缓存技术

原创研究了sina微博的开发平台

原创实现了sina微博的自动登录和发送微博功能

原创实现各大网站的自动登录等**功能

原创利用google开发平台实现按关键词搜索结果的爬取

原创实现淘宝宝贝的大家印象