twtbgn1984-CSDN博客

原创 yarn中nodemanager和任务的可用内存大小调整

今天在集群和调试之前开发的spark算法时，我提交的算法一直处于accpected状态，而且无法一直没有分配到nodemanager，怀疑是集群上的资源都被占用了一直无法分配到资源导致的。查看了下historyserver，看见同事的一个算法正在running，他分配了5g的内存来执行。可是每台集群都又24g内存，不能他的任务用了5g我的就跑不了啊。。应该是yarn设置的内存太小，随后就查了相...

2014-07-01 21:00:00 3673

原创 mapreduce简单实现基于物品的协同过滤算法

现在进到各种电商网站都会在页面给你推荐一些物品，那么这些推荐的物品是怎么得出来的呢？这里介绍一种协同过滤算法：基于物品的协同过滤算法。简单的说，就是给用户推荐他之前买过且平分高的相似的物品。该算法的主要思想是：1. 建立物品的同现矩阵就是说按用户分组，找出每2个物品在多少用户中同时出现的次数。2. 建立用户对物品的评分矩阵每个用户对每个物品的评分3. 2个矩阵相...

2013-11-17 21:47:28 809

原创 namenode加载fsimge好edits

上篇说到了namenode启动过程中主要是加载fsimge，edits和接收datanode的block信息。这篇主要分析namenode加载fsimage和edits的整个过程。首先，了解一下fsimage和edits是存放什么信息的。在hdfs-default.xml中通过dfs.name.dir和dfs.name.edits.dir配置fsimage和edits的存放路径，默认的...

2013-11-15 15:36:22 317

原创 hadoop 1.0.4 fsimage 文件格式分析

本文转载自： http://abloz.com/2013/01/08/hadoop-1-0-4-fsimage-file-format.html fsimage文件存放在NameNode中，保存HDFS中文件的meta信息。fsimage和edits 文件格式是一样的。都是二进制存储。具有文件头，目录信息，文件信息。本文分析一下fsimage文件的格式。不同版本的fsimage文件格式...

2013-11-15 15:19:49 332

原创 gephi中的统计算法学习

gephi是一个数据可视化处理软件，其中有很多对数据分析的统计算法，对于很多数据分析算法都有实现，那么就来看看其中的一些统计方法：1. degree （平均度）计算每个节点的度，并统计相同度的节点数量平均度：有向图：所有点的度数总和/节点数*2 无向图：所有点的度数总和/节点数在图上能够，看出每个度所占的百分比，能够看到每种度用不同颜色标示通过这个可以看...

2013-11-10 22:03:48 5372 3

原创 hadoop dfs 启动过程

今天来看下hadoop dfs 的启动过程都做了些什么。启动hdfs的时候，一般都是使用命令./start-dfs.sh，那就从这个sh文件入手："$bin"/hadoop-daemon.sh --config $HADOOP_CONF_DIR start namenode $nameStartOpt"$bin"/hadoop-daemons.sh --config $HADOOP_...

2013-11-08 17:40:06 556

原创 hadoop namenode format的作用

今天一同事问重启了hadoop集群后要不要format，我当时想也没想就说，不可以，不然数据都丢失了。后来仔细一想，不对，namenode format貌似不会影响datanode上面的数据，那么namenode format的作用是什么呢，通过代码来看一看吧。namenode format的类为 org.apache.hadoop.hdfs.server.namenode.NameNod...

2013-11-07 18:03:30 928

原创 maven构建hadoop项目

在eclipse中用maven构建hadoop项目，能够非常方便的下载hadoop所依赖的jar包，而不需要自己一个个导入。1. 安装maven （略过）2. eclipse中配置maven （略过）3. 创建maven项目New -》 other -》 Maven -》 Maven project 点击next勾选 use default workspace l...

2013-10-31 10:17:04 183

原创一起读nutch源码 -- injector

inject -- inject new urls into the databaseinject是在整个nutch运行的最初阶段执行，只执行一次，是将指定目录下的url信息注入到crawldb中。inject的运行代码在org.apache.nutch.crawl.Injector 类中，implements Tool，所以执行中先调用run方法。看看run方法中都做了些什么：...

2013-05-29 17:40:37 131

原创 awk笔记

awk 不换行 printf，但分割符会失效，需要自己手动加，下面是个例子，结合if语句：awk -F "|" '{OFS="|"}{printf $7"|"$41"|"$1}{if($42==1){printf "|GET|"}else if($42==2){printf "|POST|"}else{printf "|OTHER|"}}{print $26,$

2013-05-24 10:46:26 124

原创 awk中传入shell变量

假设当前目录下有a.log b.log二个文件，利用awk打印出其文件名，脚本如下：#! /bin/bashfor file in *.logdo awk 'BEGIN{var=" ' "$file" ' "}END{print var;}' "$file"done 在这里最让人混淆的是单引号和双引号我们可以利用bash -x test.sh来执行脚本，其会将脚本中的shell...

2013-05-24 10:05:51 142

原创 shell中awk详解

转载自：http://hi.baidu.com/cjy2020/item/865ca5099479a6d01ff046a6 AWK 实用工具带有其自己的自包含语言，它不仅是 Linux 中也是任何环境中现有的功能最强大的数据处理引擎之一。这种编程及数据操作语言（其名称得自于它的创始人 Alfred Aho、Peter Weinberger 和 Brian Kernighan 姓氏的首个...

2013-05-23 15:51:30 124

原创自己编译 hadoop-eclipse-plugin-1.1.2.jar 并安装

网上下了一些 hadoop-eclipse-plugin-1.1.2.jar，都不太好用，插件没转上，于是自己ant编译一个jar，步骤如下：1. 修改${hadoop.root}/src/contrib目录的build-contrib.xml文件，添加eclipse路径和hadoop版本信息: <property name="eclipse.home" location=...

2013-05-23 10:45:46 160

原创 Hadoop运行mapred的时候报错： java.lang.ClassNotFoundException解决方法

在创建自定义的Mapper时候，编译正确，但上传到集群执行时出现错误：13/05/21 17:35:10 INFO mapred.JobClient: Task Id : attempt_201305192231_0005_m_000000_0, Status : FAILEDjava.lang.RuntimeException: java.lang.ClassNotFoundException...

2013-05-21 18:04:08 1086

原创 apache tika 简介

本文转载自：http://blog.csdn.net/zbf8441372/article/details/8520352项目介绍Tika是一个内容分析工具，自带全面的parser工具类，能解析基本所有常见格式的文件，得到文件的metadata，content等内容，返回格式化信息。总的来说可以作为一个通用的解析工具。特别对于搜索引擎的数据抓去和处理步骤有重要意义。Tika是一个...

2013-05-21 10:33:19 1172

原创转载--Job的数据输入格式化器—InputFormat

Hadoop被设计用来处理海量数据，这种数据可以是结构化的，半结构化的，甚至是一些无结构化的文本数据(这些数据可能存储在HDFS文件中，也可能存放在DB中)。它处理数据的核心就是map-reduce模型，但是，无论是map还是reduce，它们的输入输出数据都是key-value对的形式，这种key-value对的形式我们可以看做是结构化的数据。同时，对于reduce的输入，当然就是map的...

2013-05-20 11:30:02 144

原创一起读nutch源码一 -- crawl

crawl：one-step crawler for intranets 一站式的爬取。也就是将 inject，generate，fetch，parse，updatedb这些都合并到这一个操作中完成。那就从crawl开始研究吧。crawl类在 org.apache.nutch.crawl.Crawl先看main方法： public static void main(Strin...

2013-05-15 18:06:29 184

原创 nutch 配置文件

nutch中主要的配置文件是nutch-default.xml. nutch启动的时候会读取这个文件，里面基本包含了nutch所有的相关配置，包括不同的plugin在哪些文件中进行定义等在nutch-default.xml中有plugin.includes的属性，在这里面加入你要使用的plugin id，这些pulgin id定义在其他的文件中，比如parse的plugin定义在pars...

2013-05-15 15:13:46 172

原创 hive中udf例子

hive中自带了一下函数，但是平常开发中可能需要专门开发一下函数来应对特定的需求，下面写一个udf的例子。udf是对输入的每行的一列或多个列的值进行计算，并返回值。导入hive-exec-0.10.0.jar继承UDF类，重写evaluate方法。下面实现一个类似oracle中row_number() 的类/** * 实现类似oracle中row_number()函数的...

2013-05-14 11:08:18 225

原创 eclipse中导入nutch源码更新

在前一篇eclipse中导入nutch源码后，发现运行的时候报出各种错误，这里重新记录安装步骤，并测试。安装前准备：eclipse svn插件eclipse ivy插件1. 打开eclipse， File-> New-> Other -> SVN -> 从SVN检出项目，选择next2. 创建新的资源位置 -》 Next ，URL输入 htt...

2013-05-13 18:01:58 147

原创 eclipse中导入nutch源码

1、下载并解压eclipse（集成开发环境）下载地址：http://www.eclipse.org/downloads/，下载Eclipse IDE for Java EE Developers2、安装Subclipse插件（SVN客户端）插件地址：http://subclipse.tigris.org/update_1.8.x，3、安装IvyDE插件（下载依赖Jar）插件地址：http...

2013-05-10 16:22:17 203

原创 hadoop中设置同一组中所有用户都有权限操作

在hadoop中有时候会需要一个组中的多个用户都能够有权限操作，比如nutch和hadoop的结合中，一个nutch用户负责爬取，hadoop用户负责维护文件系统，那这时这2个用户都要有权限来操作hadoop的文件系统了，可以如下方法：方法一：bin/hadoop fs -chmod -R 774 /user将改变/user下面的所有文件为同组用户读写执行方法二：修改hdf...

2013-05-10 10:17:51 653

twtbgn1984的博客