- 博客(65)
- 资源 (1)
- 收藏
- 关注
原创 NUTCH 1.4使用指南
NUTCH1.4使用指南从官网下载解压后,配置环境变量,在runtime/里有local和deploy两个目录,分别用于本地抓取和分布式抓取,用分布式抓取将利用hadoop作为文件系统,提高存取效率。先保证装了jdk1.6以上,在etc目录profile文件最后一行加上JAVA_HOME=/usr/local/(jdk文件夹名称)PATH=$JAVA_HOME/bin:$PATH
2014-03-02 18:16:57 839
原创 NUTCH 1.4+hadoop2.20.203.0使用指南
NUTCH 1.4+hadoop2.20.203.0使用指南Nutch有三种抓取模式,分别是单机,伪分布,分布式。单机所用文件系统为本机文件系统,伪分布用的是hadoop文件系统,分布式是在其它机器上配置相同的环境,用hadoop文件系统存抓取结果。配置的时候最好先用单机,再伪分布,再加入其它机器,进行分布式抓取,因为配置比较多,这样循序渐近可以减少错误。下面分别介绍:单机抓取:从官网
2014-03-02 18:15:55 985
原创 Java 多线程
1、进程与线程了解进程与线程一、进程 在多任务系统中,每个独立执行的程序称为进程。也就“正在进行的程序”。我们现在使用的操作系统一般是多任务的,即能够同时执行多个应用程序,实际情况是,操作系统负责对CPU等设备的资源进行分配和管理,虽然这些设备某一时刻只能做一件事,但以非常小的时间间隔交替执行多个程序,就可以给人以同时执行多个程序的感觉。二、一个进程中又可以包
2014-03-02 18:09:41 881
原创 在Linux下安装Nexus仓库管理器
在Linux下安装Nexus仓库管理器 系统环境: 全新安装的CentOS-5.5 32bit安装软件: Nexus (Maven 仓库管理器) 1. 获得root权限[ferrari@localhost ~]$ su - 2. 下载nexus集成版[root@localhost ~]# cd /usr/local[root@localhost local]
2014-03-02 18:01:47 885
转载 Maven之pom.xml详解
<project xmlns="http://maven.apache.org/POM/4.0.0 " xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance " xsi:schemaLocation="http://maven.apache.org/POM/4.0.0http://maven.apache.org/mave
2014-03-02 18:00:48 936
原创 Gora + MapReduce,大数据持久化,遍历
Gora + MapReduce,大数据持久化,遍历基于Gora中MapReduce进行扩展。 com.suntang.mapreduce.* --自定义MapReduce各类。 MyComparator.java --比较器,影响Reduce线程Key,Value。 MyGoraMapper.java --Map,数据分类 MyGoraReducer.java --Redu
2014-03-02 17:58:09 1388 1
原创 Lucene使用笔记
如何用java实现lucene1.前提 lucene有7个包需要导入:analysis,document,index,queryParser,search,store,util 2.建立索引 IndexWriter writer = new IndexWriter("E:/index", new StandardAnalyze(),true,MaxFieldLen
2014-03-02 17:54:01 691
原创 linux 硬链接 , 备注
echo "------ if firewall disable the port of mysql, then open it:"#service iptables restartiptables -D RH-Firewall-1-INPUT -j REJECT --reject-with icmp-host-prohibitediptables -D RH-Firewall-1
2014-03-02 17:52:20 690
转载 完美解读Linux文件系统的目录结构(附简明查阅手册)
一、前言 接触Linux也有一段时间了,不过这几天在编译开源程序时,才发现自己对linux文件系统的目录结构了解的不够透彻,很多重要目录都说不清楚是用来干嘛的,于是在网上百度了一下这方面的介绍,根据自己的使用习惯,整理出来一篇关于Linux文件系统的目录结构的文章,和大家一起分享。 文章对Linux下所有目录一一说明,对比较重要的目录加以重点解说,以帮助初学者熟练掌握Linux
2014-03-02 17:51:30 907
原创 linux 安装 mysql 备注
rpm -ivh libaio-0.3.105-2.i386.rpmrpm -ivh --force MySQL-server-5.5.21-1.linux2.6.i386.rpmrpm -ivh MySQL-client-5.5.21-1.linux2.6.i386.rpmrpm -ivh MySQL-shared-5.5.21-1.linux2.6.i386.rpmrpm -i
2014-03-02 17:49:42 620
原创 Jdom 解析 XML
package com.aptech.ServletMVCText.util;import java.io.File;import java.io.FileInputStream;import java.io.FileNotFoundException;import java.io.IOException;import java.util.List;import org.jdom.D
2014-03-02 17:41:19 724
原创 struts2 + ireport
3:struts2与jfreeChart的整合package com.aptech.action;import java.util.*;import org.jfree.data.*;import org.jfree.data.category.DefaultCategoryDataset;import org.jfree.data.general.*;import
2014-03-02 17:38:12 786
原创 JPA & Hibernate 注解,详解
JPA & Hibernate注解1、@Entity(name="EntityName")必须,name为可选,对应数据库中一的个表2、@Table(name="",catalog="",schema="")可选,通常和@Entity配合使用,只能标注在实体的class定义处,表示实体对应的数据库表的信息name:可选,表示表的名称.默认地,表名和实体名称一致,
2014-03-02 17:36:07 835
原创 Nutch MapReduce 原理,源码,理解笔记
Nutch是最早用MapReduce的项目 (Hadoop其实原来是Nutch的一部分),Nutch的plugin机制吸取了eclipse的plugin设计思路。在Nutch中 MapReduce编程方式占据了其核心的结构大部分。从插入url列表(Inject),生成抓取列表(Generate),抓取内容(Fetch), 分析处理内容(Parse),更新Crawl DB库(Update ),转化链
2014-03-02 17:34:08 1311
原创 nutch MapReduce 笔记
实现方式:Hadoop命令: bin/hadoop jar nutch-2.0.job org.apache.nutch.crawl.Crawl 参数...Nutch分布式,org.apache.nutch.crawl.Crawl流程:1.利用hadoop这个脚本启动一个jvm进程;2.jvm进程去运行org.apache.hadoop.util.RunJar这个ja
2014-03-02 17:32:49 953
原创 nutch + hadoop + zookeeper + hbase, linux脚本
vi /etc/sysconfig/network-scripts/ifcfg-eth0 service network restartbin/hadoop-daemon.sh start datanodesudo ufw disablechmod 777 bin/*hadoop fs -put urls urlscd /home/nutch
2014-03-02 17:31:12 891 1
原创 Apache Gora 开源的ORM框架,客户端配置详解
Gora Java客户端配置说明。 【工程结构】 /conf/ --gora-hbase-mapping.xml 实体与Hbase数据库映射配置文件。 --gora-sql-mapping.xml 实体与关系型 数据库映射配置文件。 --gora.properties Gora配置文件,主要配置数据源
2014-03-02 17:24:35 1217
转载 30个Oracle语句优化规则详解
1.选用适合的Oracle优化器 Oracle的优化器共有3种: a.RULE(基于规则) b.COST(基于成本) c.CHOOSE(选择性) 设置缺省的优化器,可以通过对init.ora文件中OPTIMIZER_MODE参数的各种声明,如RULE、COST、CHOOSE、ALL_ROWS、FIRST_ROWS。你当然也在SQL句级或是会话(session
2014-03-02 17:17:08 1015
原创 spring security 整合
【涉及文件】ExceptionHandleServlet.java --- 异常信息处理MyDaoAuthenticationProvider.java -- 验证入口,验证完后记录账户信息SecurityServiceImpl .java -- 自定义 User 获取类securityContext.xml -- Spring 配置文
2013-11-08 15:45:36 1278
原创 Html5 + jquery mobile + mobiscroll ,REST手机客户端
Html5 + jquery mobile + mobiscroll ,REST手机客户端
2013-11-08 15:25:50 2790
原创 REST标准,支持多终端。resteasy + spring + spring security + spring aop + hibernate + c# + jquery mobile
【架构】服务端:resteasy + spring + spring security + spring aop + hibernatewindows:C# Winform手 机:Html5 + jquery mobile + mobiscroll其 它:Html (略)传输格式 :"application/json;charset=UTF-8"【JAV
2013-11-08 14:50:18 3437
原创 搜索引擎信息采集
【可搜索范围】1. 正常网页搜索数据:URL、标题,描述2. 百科(百度,360)数据:URL、标题,描述,作者,发布日期3. 微博数据:URL、标题,描述,作者,发布日期,微博类型(新浪、腾讯、163、搜狐),评论数,转发数4. 新闻数据:URL、标题,描述,发布日期,发布网站5. 论坛数据:URL、标题,描述,发布日期
2013-11-08 14:08:00 1359
原创 HTML垃圾信息判断,参考贝叶斯。
原理:类似于,电话降噪(噪音处理)。将多余的杂音(垃圾内容)去除,尽可能过滤为原始内容。【核心】:贝叶斯过滤算法叶斯过滤算法是一种典型的基于统计的垃圾邮件过滤技术,这种理论的基础是通过对大量垃圾邮件的常见关键词进行分析后得出其分布的统计模型,并由此推算目标是垃圾邮件的概率,再根据所设阈值来判断是否接受邮件。如文章一共100行。贝叶斯算法:(spam*
2013-11-08 13:49:17 1059
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人