自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(22)
  • 收藏
  • 关注

原创 yarn中nodemanager和任务的可用内存大小调整

今天在集群和调试之前开发的spark算法时,我提交的算法一直处于accpected状态,而且无法一直没有分配到nodemanager,怀疑是集群上的资源都被占用了 一直无法分配到资源导致的。查看了下historyserver,看见同事的一个算法正在running,他分配了5g的内存来执行。可是每台集群都又24g内存,不能他的任务用了5g我的就跑不了啊。。应该是yarn设置的内存太小,随后就查了相...

2014-07-01 21:00:00 3518

原创 mapreduce简单实现基于物品的协同过滤算法

现在进到各种电商网站都会在页面给你推荐一些物品,那么这些推荐的物品是怎么得出来的呢?这里介绍一种协同过滤算法:基于物品的协同过滤算法。简单的说,就是给用户推荐他之前买过且平分高的相似的物品。该算法的主要思想是:1.   建立物品的同现矩阵就是说按用户分组,找出每2个物品在多少用户中同时出现的次数。2.   建立用户对物品的评分矩阵每个用户对每个物品的评分3.   2个矩阵相...

2013-11-17 21:47:28 737

原创 namenode加载fsimge好edits

上篇说到了namenode启动过程中主要是加载fsimge,edits和接收datanode的block信息。这篇主要分析namenode加载fsimage和edits的整个过程。首先,了解一下fsimage和edits是存放什么信息的。在hdfs-default.xml中通过dfs.name.dir和dfs.name.edits.dir配置fsimage和edits的存放路径,默认的...

2013-11-15 15:36:22 266

原创 hadoop 1.0.4 fsimage 文件格式分析

本文转载自: http://abloz.com/2013/01/08/hadoop-1-0-4-fsimage-file-format.html  fsimage文件存放在NameNode中,保存HDFS中文件的meta信息。fsimage和edits 文件格式是一样的。都是二进制存储。具有文件头,目录信息,文件信息。本文分析一下fsimage文件的格式。不同版本的fsimage文件格式...

2013-11-15 15:19:49 263

原创 gephi中的统计算法学习

gephi是一个数据可视化处理软件,其中有很多对数据分析的统计算法,对于很多数据分析算法都有实现,那么就来看看其中的一些统计方法:1.   degree  (平均度)计算每个节点的度,并统计相同度的节点数量平均度:  有向图: 所有点的度数总和/节点数*2    无向图: 所有点的度数总和/节点数在图上能够,看出每个度所占的百分比,能够看到每种度用不同颜色标示通过这个可以看...

2013-11-10 22:03:48 4816 3

原创 hadoop dfs 启动过程

今天来看下hadoop dfs 的启动过程都做了些什么。启动hdfs的时候,一般都是使用命令./start-dfs.sh,那就从这个sh文件入手:"$bin"/hadoop-daemon.sh --config $HADOOP_CONF_DIR start namenode $nameStartOpt"$bin"/hadoop-daemons.sh --config $HADOOP_...

2013-11-08 17:40:06 507

原创 hadoop namenode format的作用

今天一同事问重启了hadoop集群后要不要format,我当时想也没想就说,不可以,不然数据都丢失了。后来仔细一想,不对,namenode format貌似不会影响datanode上面的数据,那么namenode format的作用是什么呢,通过代码来看一看吧。namenode format的类为 org.apache.hadoop.hdfs.server.namenode.NameNod...

2013-11-07 18:03:30 844

原创 maven构建hadoop项目

在eclipse中用maven构建hadoop项目,能够非常方便的下载hadoop所依赖的jar包,而不需要自己一个个导入。1.  安装maven (略过)2.  eclipse中配置maven (略过)3.  创建maven项目New -》 other -》 Maven -》 Maven project   点击next勾选 use default workspace l...

2013-10-31 10:17:04 144

原创 一起读nutch源码 -- injector

inject -- inject new urls into the databaseinject是在整个nutch运行的最初阶段执行,只执行一次,是将指定目录下的url信息注入到crawldb中。inject的运行代码在org.apache.nutch.crawl.Injector 类中,implements Tool, 所以执行中先调用run方法。看看run方法中都做了些什么:...

2013-05-29 17:40:37 98

原创 awk笔记

awk 不换行 printf,但分割符会失效,需要自己手动加,下面是个例子,结合if语句:awk -F "|" '{OFS="|"}{printf $7"|"$41"|"$1}{if($42==1){printf "|GET|"}else if($42==2){printf "|POST|"}else{printf "|OTHER|"}}{print $26,$

2013-05-24 10:46:26 87

原创 awk中传入shell变量

假设当前目录下有a.log b.log二个文件,利用awk打印出其文件名,脚本如下:#! /bin/bashfor file in *.logdo awk 'BEGIN{var=" ' "$file" ' "}END{print var;}' "$file"done 在这里最让人混淆的是单引号和双引号我们可以利用bash -x test.sh来执行脚本,其会将脚本中的shell...

2013-05-24 10:05:51 109

原创 shell中awk详解

转载自:http://hi.baidu.com/cjy2020/item/865ca5099479a6d01ff046a6 AWK 实用工具带有其自己的自包含语言,它不仅是 Linux 中也是任何环境中现有的功能最强大的数据处理引擎之一。这种编程及数据操作语言(其名称得自于它的创始人 Alfred Aho、Peter Weinberger 和 Brian Kernighan 姓氏的首个...

2013-05-23 15:51:30 95

原创 自己编译 hadoop-eclipse-plugin-1.1.2.jar 并安装

网上下了一些 hadoop-eclipse-plugin-1.1.2.jar,都不太好用,插件没转上,于是自己ant编译一个jar,步骤如下:1.  修改${hadoop.root}/src/contrib目录的build-contrib.xml文件,添加eclipse路径和hadoop版本信息: <property name="eclipse.home" location=...

2013-05-23 10:45:46 117

原创 Hadoop运行mapred的时候报错: java.lang.ClassNotFoundException解决方法

在创建自定义的Mapper时候,编译正确,但上传到集群执行时出现错误:13/05/21 17:35:10 INFO mapred.JobClient: Task Id : attempt_201305192231_0005_m_000000_0, Status : FAILEDjava.lang.RuntimeException: java.lang.ClassNotFoundException...

2013-05-21 18:04:08 1011

原创 apache tika 简介

本文转载自:http://blog.csdn.net/zbf8441372/article/details/8520352项目介绍Tika是一个内容分析工具,自带全面的parser工具类,能解析基本所有常见格式的文件,得到文件的metadata,content等内容,返回格式化信息。总的来说可以作为一个通用的解析工具。特别对于搜索引擎的数据抓去和处理步骤有重要意义。Tika是一个...

2013-05-21 10:33:19 681

原创 转载--Job的数据输入格式化器—InputFormat

 Hadoop被设计用来处理海量数据,这种数据可以是结构化的,半结构化的,甚至是一些无结构化的文本数据(这些数据可能存储在HDFS文件中,也可能存放在DB中)。它处理数据的核心就是map-reduce模型,但是,无论是map还是reduce,它们的输入输出数据都是key-value对的形式,这种key-value对的形式我们可以看做是结构化的数据。同时,对于reduce的输入,当然就是map的...

2013-05-20 11:30:02 109

原创 一起读nutch源码一 -- crawl

crawl:one-step crawler for intranets  一站式的爬取。 也就是将 inject,generate,fetch,parse,updatedb这些都合并到这一个操作中完成。那就从crawl开始研究吧。crawl类在 org.apache.nutch.crawl.Crawl先看main方法: public static void main(Strin...

2013-05-15 18:06:29 137

原创 nutch 配置文件

nutch中主要的配置文件是nutch-default.xml.  nutch启动的时候会读取这个文件,里面基本包含了nutch所有的相关配置,包括不同的plugin在哪些文件中进行定义等在nutch-default.xml中有plugin.includes的属性,在这里面加入你要使用的plugin id,这些pulgin id定义在其他的文件中,比如parse的plugin定义在pars...

2013-05-15 15:13:46 119

原创 hive中udf例子

hive中自带了一下函数,但是平常开发中可能需要专门开发一下函数来应对特定的需求,下面写一个udf的例子。udf是对输入的每行的一列或多个列的值进行计算,并返回值。导入hive-exec-0.10.0.jar继承UDF类,重写evaluate方法。下面实现一个类似oracle中row_number() 的类/** * 实现类似oracle中row_number()函数的...

2013-05-14 11:08:18 188

原创 eclipse中导入nutch源码更新

在前一篇eclipse中导入nutch源码后,发现运行的时候报出各种错误,这里重新记录安装步骤,并测试。安装前准备:eclipse svn插件eclipse ivy插件1.  打开eclipse, File-> New-> Other -> SVN -> 从SVN检出项目 , 选择next2.  创建新的资源位置 -》 Next ,URL输入  htt...

2013-05-13 18:01:58 101

原创 eclipse中导入nutch源码

1、下载并解压eclipse(集成开发环境) 下载地址:http://www.eclipse.org/downloads/,下载Eclipse IDE for Java EE Developers2、安装Subclipse插件(SVN客户端) 插件地址:http://subclipse.tigris.org/update_1.8.x,3、安装IvyDE插件(下载依赖Jar) 插件地址:http...

2013-05-10 16:22:17 150

原创 hadoop中设置同一组中所有用户都有权限操作

在hadoop中有时候会需要一个组中的多个用户都能够有权限操作,比如nutch和hadoop的结合中,一个nutch用户负责爬取,hadoop用户负责维护文件系统,那这时这2个用户都要有权限来操作hadoop的文件系统了,可以如下方法:方法一:bin/hadoop fs -chmod -R 774 /user将改变/user下面的所有文件为同组用户读写执行方法二:修改hdf...

2013-05-10 10:17:51 583

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除