自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 资源 (1)
  • 收藏
  • 关注

原创 Nutch Nutch插件实现自定义索引字段

1. nutch 基本配置和安装不在赘述。2.新建自己的plugin 只要实现对应的plugin接口即可。3.plugin.xml 的具体配置可以参考plugins目录下的标准。4.一个是schema.xml,在其中的fields标签下加入如下代码:[code="java"] [/code]其中的stored表示这个字段的值要存储在lucene的索引...

2014-07-02 12:07:00 159

原创 Nutch 应用笔记和solr配合

最近要搞个数据挖掘的项目,用了开源nutch作为爬虫;一些坑记录下来;免得后续忘记。1. 配置 regex-urlfilter.txt,配置一定要规范,行尾切记不要有特殊字符和空格。否则nutch不给你工作,会显示0抓取记录。2.每次抓取可以新建数据保存目录,否则 urls 里面的seed 配置不生效。依然爬去的是上一个配置。3.和solr配合,请把conf的schema.xm...

2014-06-26 11:09:08 108

原创 Hadoop源码解读-JobTracker处理HeartBeat

JobTracker会接受TaskTracker的心跳,并处理。不多说,直接上源码[code="java"]public synchronized HeartbeatResponse heartbeat(TaskTrackerStatus status, boolean restarte...

2013-12-09 15:03:38 130

原创 Hadoop源码解读-Job初始化过程

首先看看Hadoop ssh 脚本 elif [ "$COMMAND" = "jar" ] ; then CLASS=org.apache.hadoop.util.RunJar任务递交。 WordCount 里面有一句话: [code="java"] System.exit(job.waitForCompletion(true) ? 0 ...

2013-12-06 11:40:16 233

原创 ArchLinux dual install

1.选择从主菜单选择 "Boot Arch Linux" 并按回车,系统将加载并给出登录提示,自动以 'root' 登录。2.建立网络连接激活接口,(例如eth0):[plain] view plaincopy# ip link set eth0 up 添加地址:[plain] view plaincopy# ip addr add 192.168...

2013-01-13 22:36:49 105

原创 hadoop基础-转载

Hadoop源代码分为三大模块:MapReduce、HDFS和Hadoop Common。其中MapReduce模块主要实现了MapReduce模型的相关功能;HDFS模块主要实现了HDFS的相关功能;而Hadoop Common主要实现了一些基础功能,比如说RPC、网络通信等。在用户使用HadoopMapReduce模型进行并行计算时,用户只需要写好Map函数、Reduce函数,之后调用...

2012-07-17 17:27:51 93

原创 shell记录-传递参数getopts

g e t o p t s可以编写脚本,使控制多个命令行参数更加容易。g e t o p t s用于形成命令行处理标准形式。原则上讲,脚本应具有确认带有多个选项的命令文件标准格式的能力。20.2.1 getopts脚本实例通过例子可以更好地理解g e t o p t s。以下g e t o p t s脚本接受下列选项或参数。• a 设置变量A L L为t r u e。• h...

2012-05-09 11:16:17 385

原创 shell记录-传递参数

脚本框架控制参数开始与停止。脚本需要两个参数,如果没有输入两个参数,那么产生一个u s a g e语句。注意这里使用c a s e语句处理输入脚本的不同参数。#!/bin/bash# opt.shusage(){ echo "usage: `basename $0` start|stop process name"} OPT=$1P...

2012-05-09 11:12:24 112

原创 start_kernel相关

start_kernel()中调用了一系列初始化函数,以完成kernel本身的设置。这些动作有的是公共的,有的则是需要配置的才会执行的。 在start_kernel()函数中, 输出Linux版本信息(printk(linux_banner)) 设置与体系结构相关的环境(setup_arch()) 页表结构初始化(paging_init()) ...

2012-01-14 14:26:16 101

原创 Linux启动过程-源码解读

===================参考天极 技术网 文章================= 当用户打开PC的电源,BIOS开机自检,按BIOS中设置的启动设备(通常是硬盘)启动,接着启动设备上安装的引导程序lilo或grub开始引导Linux,Linux首先进行内核的引导,接下来执行init程序,init程序调用了rc.sysinit和rc等程序,rc.sysinit和...

2012-01-13 13:40:27 153

原创 ArchiLinux简单安装

都说ArchLinux是利剑一把,最近体验了下,6秒钟系统启动完毕,不管你信不信,反正我信了。记录gnome安装:之前折腾了下kde,安装wiki archLinux 上面的配置下来,到最后也没有成功;不知道怎么时候,总是报错。最后无奈之下,卸载kde,安装gnome:1. pacman -Syu 升级系统;2. pacman -S gnome3. ...

2012-01-13 12:56:48 213

原创 Linux文件系统简介--参考IBMdeveloper works

基本的文件系统体系结构Linux 文件系统体系结构是一个对复杂系统进行抽象化的有趣例子。通过使用一组通用的 API 函数,Linux 可以在许多种存储设备上支持许多种文件系统。例如,read 函数调用可以从指定的文件描述符读取一定数量的字节。read 函数不了解文件系统的类型,比如 ext3 或 NFS。它也不了解文件系统所在的存储媒体,比如 AT Attachment Packet In...

2012-01-12 14:03:58 195

原创 EX4简介

=========== 摘抄自 Archlinux wiki 供自己查阅 ===========Ext4是Linux上Ext3文件系统的进化。在很多方面,Ext4对于Ext3有着比Ext3对于Ext2更多更深的改变。Ext3主要是针对Ext2添加了日志系统,而Ext4修改了重要的文件系统的数据结构,比如用来存储文件数据的那部分。当然结果就是文件系统有更好的设计,更好的性能,稳定性还有更多的功能...

2012-01-12 13:37:13 738

原创 优化Archlinux性能

============ 摘自ArchLinux wiki============修改引导文件/etc/inittab乱序执行Note: 使用该方法后,不能保证所有系统服务按顺序启动。如果dbus未在X图形服务器启动前开启,某些功能可能出现异常(ck-launch-session、gnome、kde 等等)。通过修改inittab使启动脚本乱序执行,而不必按顺序等待上一个脚...

2012-01-12 13:27:45 1235

原创 好记性不如烂笔头---Archlinux优化简介

分析瓶颈要优化系统,先要找到性能瓶颈。通过分析系统配置能够获取这些信息。这里给出几条分析系统性能的简单方法: 运行大型软件(比如 openoffice、firefox)时,如果系统变卡,很可能是内存不足。以下命令用来查询内存使用信息(-/+buffers 一栏): $ free -m 如果开机时间很长,或者第一次加载某个程序十分缓慢,则很可能是硬盘太慢了...

2012-01-12 13:23:59 842

原创 Java内存

一、Java内存分配1、 Java有几种存储区域?* 寄存器 -- 在CPU内部,开发人员不能通过代码来控制寄存器的分配,由编译器来管理* 栈 -- 在Windows下, 栈是向低地址扩展的数据结构,是一块连续的内存的区域,即栈顶的地址和栈的最大容量是系统预先规定好的。 -- 优点:由系统自动分配,速度较快。 -- 缺点:不够灵活,但程序员...

2012-01-10 12:56:29 78

原创 GDB简单应用

简单示例:#include int func(int n){ int sum =0,i; for(i=0;i

2012-01-10 12:55:40 132

原创 编译Linux内核

=======来自archlinux.org.cn=======你可以用/usr/src(本文内容)方法来编译内核,也可以用ABS:Kernel compilation with ABS。少数Arch使用者更乐意使用/usr/src这个方法,不过使用ABS在自动配置某些方面很好用。这个取决于你自己,并不是说某个方法就一定比 较好。下面的内容对生成Arch内核很有帮助。编译内核的常用...

2012-01-10 12:54:03 102

原创 Pacman 基本应用

=============参考ArchWiki整理==========1,升级系统pacman -Syu2,从源中安装包pacman -S package_namepacman -Sf package_name 重新安装软件包pacman -S extra/package_name3,只下载你要的包pacman -Sw package...

2012-01-10 12:53:19 352

原创 Linux VIM 代码补全

1 . 安装 omnicppcomplete-0.41http://www.vim.org/scripts/download_script.php?src_id=7722set ofu=syntaxcomplete#Complete2. 安装 cpp_srchttp://www.vim.org/scripts/download_script.php?src_id=9...

2012-01-10 12:52:16 150

picpick_portable

picpick_portable.picpick 工具

2019-03-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除