自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 资源 (19)
  • 收藏
  • 关注

原创 清晰版《程序员》杂志PDF电子版汇总:2012,2011年版

2011年,2012年程序员杂志PDF电子版下载汇总程序员杂志2012年PDF电子版汇总2012年第1期链接2012年第2期链接2012年第3期链接2012年第4期链接2012年第5期链接2012年第6期链接2012年第7期链接 程

2012-07-27 12:15:28 4379

原创 Nutch二次开发之定制爬取网站信息

第二篇文章探讨的是定制爬取的信息,之前的分析我们得到,爬取的框架主要包括:1)inject把自己写的url文件中的url经过过滤和正规化注入crawldb中,保存到crawldb目录下2)generate从crawldb中把url提取出来经过过滤正规化生成fetchlist队列,保存到segments的crawl_generate文件夹下3)fetch根据fetchlist队列将url

2012-07-19 15:38:23 9672 3

原创 Nutch 二次开发之parse正文内容

关于nutch的基础知识可以参考lemo的专栏nutch支持二次开发,为了满足搜索的准确率的问题,考虑仅仅将网页正文的内容提取出来作为索引的内容,对应的是parse_text的数据。我使用的事nutch1.4 版本,在cygwin下执行crawl命令进行爬取。bin/nutch crawl urls -dir crawl -depth 3 -topN 30爬取的流程如下:inject

2012-07-11 16:49:02 10158 6

支持向量机导论.pdf

支持向量机导论.pdf 权威的支持向量机书籍

2012-08-29

清晰版 程序员2011年第08期.pdf

清晰版 程序员2011年第08期.pdf 给您专业的指导

2012-07-27

清晰版 程序员2011年第07期.pdf

清晰版 程序员2011年第07期.pdf 给您专业的指导

2012-07-27

清晰版程序员杂志2011年第3期.pdf

清晰版程序员杂志2011年第3期.pdf

2012-07-27

清晰版《程序员》杂志2011年第1期.pdf

清晰版《程序员》杂志2011年第1期.pdf

2012-07-27

高清版《程序员》杂志2012年第3期.pdf

高清版《程序员》杂志2012年第3期.pdf

2012-07-27

综述网页文本信息自动提取技术综述++.pdf

国内网页信息抽取技术方面最全面的综述,作者是浙江大学的硕士,可以快速让你了解这个信息抽取技术方面都全面和权威的概述

2012-07-20

清晰版程序员2012年01期.pdf

程序员2012年01期.pdf 清晰版 欢迎下载

2012-07-19

清晰版《程序员》杂志2012年第5期.pdf

清晰版《程序员》杂志2012年第5期.pdf ,欢迎下载

2012-07-19

nutch_1.4在windows下安装配置.pdf

nutch1.4 在windows下的安装配置环境搭建

2012-07-19

Nutch配置环境\Nutch1[1].4_windows下eclipse配置图文详解.docx

nutch 在windows下环境搭配 已经如何在eclipse下配置,有配图,很详细

2012-07-19

网页正文提取工具boilerpipe1.2bin包

输入一个url或者string型的网页源码,通过该工具即可得到想要的正文信息,例如提取各大门户网站的新闻,历史,娱乐等的正文信息。网页正文提取工具,这是目前销量最高,提取一个网页正文信息只需要毫秒级的时间消耗,同时他的准确率已经是最高级别的,相信使用它之后你将得到享受级别的感受,很强大

2012-07-19

apache-solr-4.0.0-ALPHA-src.gz官方包

apache官方的solr4.0的源代码包,可以通过分析源代码提高理解,或者通过编译源码进行二次开发

2012-07-19

nutch入门教程

nutch的入门教程,包含nutch配置环境搭建,nutch原理,nutch架构分析,nutch数据分析方法,和nutch开发的知识,很有帮助

2012-07-11

dex2jar,java反汇编工具

dex2jar可以方便的反汇编java中的class文件,让你想看的代码跃然面前

2011-10-20

javaCSVapi,java操作csv文件的api

java操作cvs文件,csv文件的api,可以方便的做函数和读写功能,各种函数供您选择

2011-10-20

poi_3.7.jar

java处理excel文件操作API,还因为excel表格内容太多,处理麻烦吗,直接用poi.jar方便的读写数据

2011-10-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除