LuWenHui_Leon_-CSDN博客

原创 NUTCH 1.4使用指南

NUTCH1.4使用指南从官网下载解压后，配置环境变量，在runtime/里有local和deploy两个目录，分别用于本地抓取和分布式抓取，用分布式抓取将利用hadoop作为文件系统，提高存取效率。先保证装了jdk1.6以上，在etc目录profile文件最后一行加上JAVA_HOME=/usr/local/(jdk文件夹名称)PATH=$JAVA_HOME/bin:$PATH

2014-03-02 18:16:57 839

原创 NUTCH 1.4+hadoop2.20.203.0使用指南

NUTCH 1.4+hadoop2.20.203.0使用指南Nutch有三种抓取模式，分别是单机，伪分布，分布式。单机所用文件系统为本机文件系统，伪分布用的是hadoop文件系统，分布式是在其它机器上配置相同的环境，用hadoop文件系统存抓取结果。配置的时候最好先用单机，再伪分布，再加入其它机器，进行分布式抓取，因为配置比较多，这样循序渐近可以减少错误。下面分别介绍：单机抓取：从官网

2014-03-02 18:15:55 985

原创 Java 多线程

1、进程与线程了解进程与线程一、进程在多任务系统中，每个独立执行的程序称为进程。也就“正在进行的程序”。我们现在使用的操作系统一般是多任务的，即能够同时执行多个应用程序，实际情况是，操作系统负责对CPU等设备的资源进行分配和管理，虽然这些设备某一时刻只能做一件事，但以非常小的时间间隔交替执行多个程序，就可以给人以同时执行多个程序的感觉。二、一个进程中又可以包

2014-03-02 18:09:41 881

原创在Linux下安装Nexus仓库管理器

在Linux下安装Nexus仓库管理器系统环境: 全新安装的CentOS-5.5 32bit安装软件: Nexus (Maven 仓库管理器) 1. 获得root权限[ferrari@localhost ~]$ su - 2. 下载nexus集成版[root@localhost ~]# cd /usr/local[root@localhost local]

2014-03-02 18:01:47 885

转载 Maven之pom.xml详解

<project xmlns="http://maven.apache.org/POM/4.0.0 " xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance " xsi:schemaLocation="http://maven.apache.org/POM/4.0.0http://maven.apache.org/mave

2014-03-02 18:00:48 936

原创 Gora + MapReduce，大数据持久化，遍历

Gora + MapReduce，大数据持久化，遍历基于Gora中MapReduce进行扩展。 com.suntang.mapreduce.* --自定义MapReduce各类。 MyComparator.java --比较器，影响Reduce线程Key,Value。 MyGoraMapper.java --Map，数据分类 MyGoraReducer.java --Redu

2014-03-02 17:58:09 1388 1

原创 Lucene使用笔记

如何用java实现lucene1.前提　　lucene有7个包需要导入：analysis，document，index，queryParser，search，store，util　　2.建立索引　　IndexWriter writer = new IndexWriter("E:/index", new StandardAnalyze(),true,MaxFieldLen

2014-03-02 17:54:01 691

原创 linux 硬链接，备注

echo "------ if firewall disable the port of mysql, then open it:"#service iptables restartiptables -D RH-Firewall-1-INPUT -j REJECT --reject-with icmp-host-prohibitediptables -D RH-Firewall-1

2014-03-02 17:52:20 690

转载完美解读Linux文件系统的目录结构（附简明查阅手册）

一、前言接触Linux也有一段时间了，不过这几天在编译开源程序时，才发现自己对linux文件系统的目录结构了解的不够透彻，很多重要目录都说不清楚是用来干嘛的，于是在网上百度了一下这方面的介绍，根据自己的使用习惯，整理出来一篇关于Linux文件系统的目录结构的文章，和大家一起分享。文章对Linux下所有目录一一说明，对比较重要的目录加以重点解说，以帮助初学者熟练掌握Linux

2014-03-02 17:51:30 907

原创 linux 安装 mysql 备注

rpm -ivh libaio-0.3.105-2.i386.rpmrpm -ivh --force MySQL-server-5.5.21-1.linux2.6.i386.rpmrpm -ivh MySQL-client-5.5.21-1.linux2.6.i386.rpmrpm -ivh MySQL-shared-5.5.21-1.linux2.6.i386.rpmrpm -i

2014-03-02 17:49:42 620

原创 Jdom 解析 XML

package com.aptech.ServletMVCText.util;import java.io.File;import java.io.FileInputStream;import java.io.FileNotFoundException;import java.io.IOException;import java.util.List;import org.jdom.D

2014-03-02 17:41:19 724

原创 struts2 + ireport

3:struts2与jfreeChart的整合package com.aptech.action;import java.util.*;import org.jfree.data.*;import org.jfree.data.category.DefaultCategoryDataset;import org.jfree.data.general.*;import

2014-03-02 17:38:12 786

原创 JPA & Hibernate 注解，详解

JPA & Hibernate注解1、@Entity(name="EntityName")必须,name为可选,对应数据库中一的个表2、@Table(name="",catalog="",schema="")可选,通常和@Entity配合使用,只能标注在实体的class定义处,表示实体对应的数据库表的信息name:可选,表示表的名称.默认地,表名和实体名称一致,

2014-03-02 17:36:07 835

原创 Nutch MapReduce 原理，源码，理解笔记

Nutch是最早用MapReduce的项目（Hadoop其实原来是Nutch的一部分），Nutch的plugin机制吸取了eclipse的plugin设计思路。在Nutch中 MapReduce编程方式占据了其核心的结构大部分。从插入url列表（Inject），生成抓取列表（Generate），抓取内容（Fetch），分析处理内容（Parse），更新Crawl DB库（Update ），转化链

2014-03-02 17:34:08 1311

原创 nutch MapReduce 笔记

实现方式：Hadoop命令： bin/hadoop jar nutch-2.0.job org.apache.nutch.crawl.Crawl 参数...Nutch分布式，org.apache.nutch.crawl.Crawl流程：1.利用hadoop这个脚本启动一个jvm进程;2.jvm进程去运行org.apache.hadoop.util.RunJar这个ja

2014-03-02 17:32:49 953

原创 nutch + hadoop + zookeeper + hbase， linux脚本

vi /etc/sysconfig/network-scripts/ifcfg-eth0 service network restartbin/hadoop-daemon.sh start datanodesudo ufw disablechmod 777 bin/*hadoop fs -put urls urlscd /home/nutch

2014-03-02 17:31:12 891 1

原创 Apache Gora 开源的ORM框架，客户端配置详解

Gora Java客户端配置说明。【工程结构】 /conf/ --gora-hbase-mapping.xml 实体与Hbase数据库映射配置文件。 --gora-sql-mapping.xml 实体与关系型数据库映射配置文件。 --gora.properties Gora配置文件，主要配置数据源

2014-03-02 17:24:35 1217

转载 30个Oracle语句优化规则详解

1.选用适合的Oracle优化器 Oracle的优化器共有3种： a.RULE(基于规则) b.COST(基于成本) c.CHOOSE(选择性) 设置缺省的优化器，可以通过对init.ora文件中OPTIMIZER_MODE参数的各种声明，如RULE、COST、CHOOSE、ALL_ROWS、FIRST_ROWS。你当然也在SQL句级或是会话(session

2014-03-02 17:17:08 1015

原创 spring security 整合

【涉及文件】ExceptionHandleServlet.java --- 异常信息处理MyDaoAuthenticationProvider.java -- 验证入口，验证完后记录账户信息SecurityServiceImpl .java -- 自定义 User 获取类securityContext.xml -- Spring 配置文

2013-11-08 15:45:36 1278

原创 Html5 + jquery mobile + mobiscroll ，REST手机客户端

Html5 + jquery mobile + mobiscroll ，REST手机客户端

2013-11-08 15:25:50 2790

原创 C# Winform 客户端架构调用 REST 传输 Json

C# Winform 客户端架构调用 REST 传输 Json

2013-11-08 14:54:38 9391

原创 REST标准，支持多终端。resteasy + spring + spring security + spring aop + hibernate + c# + jquery mobile

【架构】服务端：resteasy + spring + spring security + spring aop + hibernatewindows：C# Winform手机：Html5 + jquery mobile + mobiscroll其它：Html （略）传输格式："application/json;charset=UTF-8"【JAV

2013-11-08 14:50:18 3437

原创搜索引擎信息采集

【可搜索范围】1. 正常网页搜索数据：URL、标题，描述2. 百科（百度，360）数据：URL、标题，描述，作者，发布日期3. 微博数据：URL、标题，描述，作者，发布日期，微博类型（新浪、腾讯、163、搜狐），评论数，转发数4. 新闻数据：URL、标题，描述，发布日期，发布网站5. 论坛数据：URL、标题，描述，发布日期

2013-11-08 14:08:00 1359

原创 HTML垃圾信息判断，参考贝叶斯。

原理：类似于，电话降噪（噪音处理）。将多余的杂音（垃圾内容）去除，尽可能过滤为原始内容。【核心】：贝叶斯过滤算法叶斯过滤算法是一种典型的基于统计的垃圾邮件过滤技术，这种理论的基础是通过对大量垃圾邮件的常见关键词进行分析后得出其分布的统计模型，并由此推算目标是垃圾邮件的概率，再根据所设阈值来判断是否接受邮件。如文章一共100行。贝叶斯算法：(spam*

2013-11-08 13:49:17 1059

原创 4种HTML结构化解析方法

1. dom解析方式2. 字符串首尾截取3. 正则表达式4. 通用型，分析能力有限，但能兼容大部分网站

2013-11-08 13:21:46 2582

a286352250的博客