uestcfrog-CSDN博客

转载 Nutch,hadoop错误及处理

原文链接：http://blog.csdn.net/wuyamony/article/details/72675651.Nutch在eclipse中调试时，除了参考nutchtutorial(http://wiki.apache.org/nutch/NutchTutorial#A4._Setup_Solr_for_search)中配置，还要注意nutch-default.xml中plugi

2012-02-17 14:37:54 1329

转载备忘录：Nutch+eclipse配置

原文链接：http://blog.csdn.net/wuyamony/article/details/71814911.下载Nutch-src文件2.在eclipse中创建java项目，将Nutch-src文件解压到此项目文件夹中3.找到ivy/ivy.xml，右击选择add ivy library（如果没有此选项，则说明没有安装ivyDE，自己安装），勾选所有选项，确定，

2012-02-17 14:34:58 1128

原创 Linux上 Nutch 1.3 + Solr 3.4.0 + Tomcat6.0 搜索引擎单节点搭建笔记

Linux上 Nutch 1.3 + Solr 3.4.0 + Tomcat6.0搜索引擎单节点搭建笔记　　 Nutch 是apache下的一款开源web搜索引擎，而Solr则是Apache下的一款基于Lucene的企业级开源全文搜索平台，本身不具有网页爬取功能。从Nutch 1.3 起，Nutch集成了Solr的索引框架，通过Solr为Nutch爬取到的数据建立索引。这

2011-12-26 23:50:26 3216

转载配置nutch软件

1.1 下载安装Java jdk-1.7.0from: http://www.oracle.com/安装目录：C:\Program Files (x86)\Java\jdk1.7.01.2 修改环境变量JAVA_HOME= C:\Program Files (x86)\Java\jdk1.7.0classpath＝.;%JAVA_HOME%\lib\dt.jar;%JAVA_H

2011-12-25 22:47:01 1591 1

原创主题提取

主题提取综述随着因特网在全球范围内的飞速发展，网络媒体已被公认为是继报纸、广播、电视之后的“第四媒体”，网络成为反映社会舆情的主要载体之一。网络环境下的舆情信息的主要来源有：新闻评论、BBS、聊天室、博客、聚合新闻(RSS)。网络舆情表达快捷、信息多元，方式互动，具备传统媒体无法比拟的优势。网络舆情形成迅速，对社会影响巨大，不仅需要各级党政干部密切关注，也需要社会各界高度重视。最

2011-10-28 11:15:58 24261

原创信息采集及开源Boilerpipe简介

信息采集及开源Boilerpipe简介敖立翔信息采集信息采集部分是與情分析系统的先导部分，负责抓取各个网站的與情信息，并进行初步的分析处理，去除网页中无关信息，提取标题、来源、作者、发布时间、正文等有用信息，作为之后與情分析的基础。由于信息

2011-10-16 14:58:53 8720 5

转载基于密度的聚类

基于密度的聚类定义：1. 对于空间中的一个对象，如果它在给定半径e的邻域中的对象个数大于密度阀值MinPts，则该对象被称为核心对象，否则称为边界对象。2. 如果p是一个核心对象，q属于p的邻域，那么称p直接密度可达q。3.

2011-10-15 16:35:07 8658 5

原创文本聚类算法简要

文本聚类算法分析1. 传统的文本聚类算法传统的文本聚类算法分为以下几种1.1 分割方法(partitioning methods)1.1.1 K-MEANS算法：工作原理：首先从n个数据对象任意选择 k 个对象作为初始聚类中心；而对于所剩下其它对象

2011-10-15 14:45:16 10839 1

原创文本聚类简介

一.简介文本聚类是数据挖掘中数据挖掘技术中的一种，是把文本文档资源按照指定的相似性标准划分为若干类别，使得每一类文档相似性达到指定标准，并且为每一类别给出容易让人理解的具体描述，是一个发现文本集包含内容的方法。二．文本聚类流程：1.将原始文

2011-10-15 09:52:45 3551 4

原创 Linux下安装配置SVN服务器

Linux下安装配置SVN服务器 svn(subversion)是近年来崛起的版本管理工具，是cvs的接班人。

2011-09-25 13:56:47 1091

科大树蛙文本挖掘小组