自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

转载 Nutch,hadoop错误及处理

原文链接:http://blog.csdn.net/wuyamony/article/details/72675651.Nutch在eclipse中调试时,除了参考nutchtutorial(http://wiki.apache.org/nutch/NutchTutorial#A4._Setup_Solr_for_search)中配置,还要注意nutch-default.xml中plugi

2012-02-17 14:37:54 1329

转载 备忘录:Nutch+eclipse配置

原文链接:http://blog.csdn.net/wuyamony/article/details/71814911.下载Nutch-src文件2.在eclipse中创建java项目,将Nutch-src文件解压到此项目文件夹中3.找到ivy/ivy.xml,右击选择add ivy library(如果没有此选项,则说明没有安装ivyDE,自己安装),勾选所有选项,确定,

2012-02-17 14:34:58 1128

原创 Linux上 Nutch 1.3 + Solr 3.4.0 + Tomcat6.0 搜索引擎单节点搭建笔记

Linux上 Nutch 1.3 + Solr 3.4.0 + Tomcat6.0搜索引擎单节点搭建笔记          Nutch 是apache下的一款开源web搜索引擎,而Solr则是Apache下的一款基于Lucene的企业级开源全文搜索平台,本身不具有网页爬取功能。从Nutch 1.3 起,Nutch集成了Solr的索引框架,通过Solr为Nutch爬取到的数据建立索引。这

2011-12-26 23:50:26 3216

转载 配置nutch软件

1.1 下载安装Java jdk-1.7.0from: http://www.oracle.com/安装目录:C:\Program Files (x86)\Java\jdk1.7.01.2 修改环境变量JAVA_HOME= C:\Program Files (x86)\Java\jdk1.7.0classpath=.;%JAVA_HOME%\lib\dt.jar;%JAVA_H

2011-12-25 22:47:01 1591 1

原创 主题提取

主题提取综述 随着因特网在全球范围内的飞速发展,网络媒体已被公认为是继报纸、广播、电视之后的“第四媒体”,网络成为反映社会舆情的主要载体之一。网络环境下的舆情信息的主要来源有:新闻评论、BBS、聊天室、博客、聚合新闻(RSS)。网络舆情表达快捷、信息多元,方式互动,具备传统媒体无法比拟的优势。网络舆情形成迅速,对社会影响巨大,不仅需要各级党政干部密切关注,也需要社会各界高度重视。最

2011-10-28 11:15:58 24261

原创 信息采集及开源Boilerpipe简介

信息采集及开源Boilerpipe简介敖立翔信息采集信息采集部分是與情分析系统的先导部分,负责抓取各个网站的與情信息,并进行初步的分析处理,去除网页中无关信息,提取标题、来源、作者、发布时间、正文等有用信息,作为之后與情分析的基础。由于信息

2011-10-16 14:58:53 8720 5

转载 基于密度的聚类

基于密度的聚类定义:1.      对于空间中的一个对象,如果它在给定半径e的邻域中的对象个数大于密度阀值MinPts,则该对象被称为核心对象,否则称为边界对象。2.      如果p是一个核心对象,q属于p的邻域,那么称p直接密度可达q。3.

2011-10-15 16:35:07 8658 5

原创 文本聚类算法简要

文本聚类算法分析1. 传统的文本聚类算法  传统的文本聚类算法分为以下几种1.1 分割方法(partitioning methods)1.1.1 K-MEANS算法:工作原理:首先从n个数据对象任意选择 k 个对象作为初始聚类中心;而对于所剩下其它对象

2011-10-15 14:45:16 10839 1

原创 文本聚类简介

一.简介文本聚类是数据挖掘中数据挖掘技术中的一种,是把文本文档资源按照指定的相似性标准划分为若干类别,使得每一类文档相似性达到指定标准,并且为每一类别给出容易让人理解的具体描述,是一个发现文本集包含内容的方法。      二.文本聚类流程:1.将原始文

2011-10-15 09:52:45 3551 4

原创 Linux下安装配置SVN服务器

<!--@page {margin:0.79in}p {margin-bottom:0.08in}-->Linux下安装配置SVN服务器        svn(subversion)是近年来崛起的版本管理工具,是cvs的接班人。

2011-09-25 13:56:47 1091

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除