自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(30)
  • 资源 (4)
  • 收藏
  • 关注

原创 腾讯云主机linux安装nginx

nginx安装安装环境安装步骤安装环境1. nginx v1.9.8源码下载地址:http://nginx.org/download/安装文档地址:http://nginx.org/en/docs/configure.html2. linux os 版本内核版本:centos 3.10.** 内核3. gcc&gcc-c++和make 版本gcc版本:ver...

2018-12-01 12:51:47 416

原创 nginx & phpAdmin环境搭建

php安装流程phpMyAdmin源码下载:https://www.phpmyadmin.net/php下载http://php.net/get/php-5.6.38.tar.gz/from/a/mirror2.1 安装libxml2yum install libxml2yum install libxml2-devel -y2.2 编译php源码./configur...

2018-12-01 12:45:49 438

原创 const对象默认为文件的局部变量

const 定义的对象为一个常量不能被修改。这个想必大家都知道。这里只是介绍const对象默认为文件的局部变量        当一个非const变量在一个c或cpp文件中为全局时,它在整个程序中都可以访问。我们在其他的c或cpp文件要用到这个变量,只需要在文件做合适的声明就能使用。例如:main.cpp 中全局变量bufsize#include using namesp

2014-07-18 22:20:39 1124

转载 shell 面试题

目录(?)[+] #/bin/shMax_CPU=0Avg_CPU=0Total_Time=1Process=$1Interval=$2# check the parametersif [ $# -ne 2 ]; then   echo "Usage: $0 ProcessName Interval"   exitfiLogFile=

2014-07-13 16:17:11 698

原创 sed 命令编辑文本

sed的使用总结

2014-07-12 15:57:24 848

转载 Nutch插件开发(资料整理)

plugin(插件)为nutch提供了一些功能强大的部件,nutch中很多功能都是使用插件实现的,而使用者也可以自行开发更多适合自已的插件。nutch使用这样的plugin系统有什么好处:1:可扩展性       通过plugin,nutch允许任何人扩展它的功能,而我们要做的只是对给定的接口做简单的实现,举个例子:我们在NUTCH里使用LOADBALANCE进行下载的插件,它就是一个对p

2014-07-07 11:25:41 419

转载 Nutch插件机制分析

引言Nutch使用的插件机制是其所有功能的核心,所有的扩展功能包括页面分析parse、页面评分scoring、url过滤urlFilter、分词analyzer等搜索引擎的核心功能都是通过插件机制实现的。插件机制的有点有如下几点:可扩展能力(Extensibility)插件机制允许任何人扩展Nutch的功能,而且开发扩展的门槛很低,开发者仅仅需要实现特定的接口来实现自己的功能。

2014-07-07 09:59:39 457

原创 linux shell 代码块的重定向

代码块的重定向是指在代码块内将标准输入或标准输出重定向到文件,而在代码块外还是保留默认状态,换句话说,代码块重定向指对标准输入或者标准输出的重定向只在代码块内有效。可以重定向的代码块是while、until、for,也可以是if/then,甚至是函数。while重定向#!/bin/bashls /etc> logswhile [ "$filename" != "rc.d"

2014-07-06 23:15:05 1365

原创 linux命令 exec

exec命令可以通过文件标识符打开或挂

2014-07-04 23:59:22 809

原创 shell 间接变量的使用

变量的间接引用:   一个变量的值是另一个变量的名字

2014-07-04 12:20:34 534

原创 linux字符串的处理

1.计算字符串的长度${string}

2014-07-02 23:52:52 665

原创 hadoop启动问题

环境:CentOS+Hadoop 1.2.1Error occurred during initialization of VMCould not reserve enough space for object heapError: Could not create the Java Virtual Machine.Error: A fatal exception has

2014-07-02 09:54:32 397

转载 $()和${}和$(())和(())

$()和${}和$(())和(()) $()和${}的用法:在 bash shell 中,$( ) 与 ` ` (反引号) 都是用来做命令替换用(command substitution)的。而 $( ) 并不见的每一种 shell 都能使用,若你用 bash2 的话,肯定没问题... 看 ${ } 吧... 它其实就是用来作变量替换用的啦。一般情况下,$var 与 ${var

2014-06-21 23:32:21 422

原创 poj1035 Spell checker

参考 優YoU http://user.qzone.qq.com/289065406/blog/1309051410字符串通过长度建立一个哈希,在对查找相似单词,巧妙利用长度,操作简单高效,没有传统的改变、增加和删除一个字母,然后重新匹配,而是领用字符串的长度相等和相差一,进行分析,比较不同就行。题目代码#include #include  using namespace

2014-06-17 21:20:04 376

原创 poj1142 Smith Numbers

题目大意:   Smith数是给定一个数,分解成若干质因数,将所有的质因数的每位加起来等于原来给定数的每位加起来的和,则这个数是Smith数(不包含素数),如4937775=3*5*5*65837,且4+9+3+7+7+7+5=42,3+5+5+6+5+8+3+7=42。本题则是输入一个整数,输出与该数相邻的Smith数。 题目分析:   关键是质因数的求解,其次是要区分开素数,因为

2014-06-17 21:20:01 532

原创 poj2503 Babelfish 字典树

题目大意:  输入若干行,每行前一个单词是英语,后一个相对应是其他语言。给定一个其他语言的单词输出其英语形式,若没有则输出eh。题目分析:  关键是字典树的建立,创建一个结构体word里面str存放英语,s存放对应的翻译。在创建字典树的工程中,每个单词的末尾字母节点里存放word数组的下标,查找时返回一个数组的下标,然后通过下标输出对应的翻译就行。题目代码:#include

2014-06-17 21:19:59 460

原创 poj 2752 Seek the…

题目大意:   输入一个字符串然后输出所有前缀等于后缀的情况,并以其长度输出来。(字符串自身也是一种情况)题目分析:  kmp算法next数组的应用,先求出字符串的next数组,然后j=next[j]进行回溯(j为字符串的长度)。如ababcababababcabab,next[18]=9,整个字符串前缀和后缀相同的值为9,输出;然后前9个字符中寻找前缀等于后缀的情况,输出(nex

2014-06-17 21:19:57 344

原创 插入排序之二分查找

每插入一个数,插入排序移动的步数一定,想要优化算法,可以减少查询的步数,二分查找可以起到一定的优化。  //移的步数不变,查找的步数可能减少#include #define MAXSIZE 100 using namespace std; void insertion_sort(int a[],int n); int binarySearch(int left,int right

2014-06-17 21:19:50 465

原创 poj1961 Period

题目大意:   给指定长度N的字符串,然后在2题目分析:   kmp算法的应用,kmp算法中的next数组,如果是某个子串循环的,在i的位置,那么next[i]总会等于上一个子串的末尾数值。例如"abababab"编号为12345678,next[8]=6;题目代码:#includeusing namespace std;char a[1000010];int next[

2014-06-17 21:19:47 549

原创 Rabin-Karp算法的心得体会

本文主要讲的是RK算法中,递推公式的证明:                   ts+1=(d*(ts-T[s+1]*h)+T[s+m+1])mod q;     参照算法导论,如字符串:314152     (a+b)mod q=(a mod q+b mod q)mod q;     (a*b)mod q=(a mod q*b mod q)mod q;      (am

2014-06-17 21:19:45 455

原创 poj1598 Excuses,Excuses!

题目大意:   就是给你一些关键词和一些句子,然后在分别在每个句子中寻找关键词,输出关键词最多的句子,关键词数量相同的句子,都要输出。题目分析:   字符串的输入,在给定的句子中提取一个单词存取到cmp[100]数组中,将提取的单词与关键词调用strcmp函数比较,最后确定下一次偏移量接着提取单词进行比较。题目代码:#include #include  using nam

2014-06-17 21:19:43 502

原创 poj1002 487-3279

题目大意:   电话号码用一种能让人记住的方式输入,然后统计号码:有重复的输出号码,并输出重复次数;如果没有重复,则输出Noduplicates. 题目分析:     本来关键在于怎么统计电话号码,用一个大型数组,数组下标表示电话号码,数组内容表示电话号码重复的次数。题目代码:#include#include using namespacestd; int

2014-06-17 21:19:40 387

原创 poj1988 cube stacking

题目描述:     给n个栈,存取的数据为123···n;现在执行两种操作:(M X Y)为将包含X的栈压入包含Y的栈里;(CX)为输出包含X的栈里,X下面数的个数。题目分析:参考http://blog.sina.com.cn/s/blog_626049050100k57s.html;虽然是并查集,但是还是不是很清楚的思路,关键还是要清楚根节点更新,那么相应的子节点也要相应的更新(路径压

2014-06-17 21:19:38 437

原创 poj1573 Robot Motion

题目大意:一个机器人进入标记东西南北的图,判断是否能够走出来。题目分析:机器人可能走出来,也可能在图中进入死循环,所以要定义一个数组标记该点是否走过。题目代码:#include //#include  using namespace std; int main () {    introw,col,start;    inti,j;    intstep;   

2014-06-17 21:19:36 340

原创 猴子选大王

题目大意:     有n只猴子,编号1、2、···n围成一圈,从第一只猴子报数,报到m的猴子离开,然后剩下的猴子接着从1开始报数,直到剩下一只猴子,则剩下的猴子为大王题目分析:     这里围成一圈报数,关键是怎么样模拟出一个圈,用队列可以很好的解决这个问题。先将前所有猴子的编号入队,然后将前m-1只分别出队和入队,在将第m只猴子出队,如此循环,直到剩下最后一只猴子。题目代码:

2014-06-17 21:19:34 472

原创 poj1416

题目大意:给定一个目标数和一个写在纸上将被粉碎的数,被粉碎的意思是将整数进行分割(如123461+2+34+6),求分割后的数加起来小于目标数且最接近目标数,如果分割的方式不止一种,输出rejected;如果目标数和指定的数相同,直接输出;如果目标数小于分割的最小数,输出error;否则,输出最接近目标数的数,并输出分割方式。题目分析:DFS找出最优解每位数一个一个的加入,用一个字符数组

2014-06-17 21:19:31 422

原创 nutch-1.4在eclipse中运行

1.选中nutch所在eclipse中的工程,新建一个文件夹urls

2014-06-13 21:50:31 431

原创 CentOS 6.5 eclipse导入nutch-1.4

1.下载nutch包,如果是src包,则需要ant编译

2014-06-13 21:15:28 453

原创 提取html中的链接

eclipse:导入htmlparser.jarimport org.htmlparser.tags.LinkTag;import org.htmlparser.util.*;import org.htmlparser.filters.*;import org.htmlparser.Parser;import org.htmlparser.util.ParserExceptio

2014-06-09 23:03:33 669

原创 简单的提取html中的TextNode

eclipse:导入htmlparser.jarimport org.htmlparser.util.*;import org.htmlparser.filters.*;import org.htmlparser.NodeFilter;import org.htmlparser.Parser;import org.htmlparser.nodes.TextNode;impo

2014-06-09 22:55:56 630

Nutch简要文档

里面描述了Nutch的基本流程,Nutch与eclipse的结合,Nutch与Solr的结合

2014-07-10

Nutch执行单步执行、中间结果文件分析和插件开发基础

资源中urls.txt是我nutch单步执行过程的种子文件,里面的ppt主要讲解nutch单步执行流程,并获取每次单步执行的结果文件,对文件进行分析,同时ppt还讲解了nutch的插件的基础知识,不是很详细,但是可以作为参考。 资源中的其他文件夹是nutch爬去的中间结果文本形式,因为是在CentOS上运行调试的,所以windows需要notepad打开,可以供大家学习。 资源的crawl_dump文件夹是改进parse_html插件后的结果,同样也只能用notepad打开

2014-07-08

boilerpipe-1.2.0-bin.tar.gz

html网页提取正文包,过滤网页上的多余信息

2014-06-12

htmlparser解析html的java包

html解析是用的包。htmlparser.jar,htmllexer.jar等

2014-06-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除