自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

Cui Kai

09月 08月 07月

原创清晰版《程序员》杂志PDF电子版汇总：2012，2011年版

2011年,2012年程序员杂志PDF电子版下载汇总程序员杂志2012年PDF电子版汇总2012年第1期链接2012年第2期链接2012年第3期链接2012年第4期链接2012年第5期链接2012年第6期链接2012年第7期链接程

2012-07-27 12:15:28 4379

原创 Nutch二次开发之定制爬取网站信息

第二篇文章探讨的是定制爬取的信息，之前的分析我们得到，爬取的框架主要包括：1）inject把自己写的url文件中的url经过过滤和正规化注入crawldb中，保存到crawldb目录下2）generate从crawldb中把url提取出来经过过滤正规化生成fetchlist队列，保存到segments的crawl_generate文件夹下3）fetch根据fetchlist队列将url

2012-07-19 15:38:23 9672 3

原创 Nutch 二次开发之parse正文内容

关于nutch的基础知识可以参考lemo的专栏nutch支持二次开发，为了满足搜索的准确率的问题，考虑仅仅将网页正文的内容提取出来作为索引的内容，对应的是parse_text的数据。我使用的事nutch1.4 版本，在cygwin下执行crawl命令进行爬取。bin/nutch crawl urls -dir crawl -depth 3 -topN 30爬取的流程如下：inject

2012-07-11 16:49:02 10158 6

支持向量机导论.pdf

支持向量机导论.pdf 权威的支持向量机书籍

2012-08-29

清晰版程序员2011年第08期.pdf

清晰版程序员2011年第08期.pdf 给您专业的指导

2012-07-27

清晰版程序员2011年第07期.pdf

清晰版程序员2011年第07期.pdf 给您专业的指导

2012-07-27

清晰版程序员杂志2011年第3期.pdf

清晰版程序员杂志2011年第3期.pdf

2012-07-27

清晰版《程序员》杂志2011年第1期.pdf

清晰版《程序员》杂志2011年第1期.pdf

2012-07-27

高清版《程序员》杂志2012年第3期.pdf

高清版《程序员》杂志2012年第3期.pdf

2012-07-27

综述网页文本信息自动提取技术综述++.pdf

国内网页信息抽取技术方面最全面的综述，作者是浙江大学的硕士，可以快速让你了解这个信息抽取技术方面都全面和权威的概述

2012-07-20

清晰版程序员2012年01期.pdf

程序员2012年01期.pdf 清晰版欢迎下载

2012-07-19

清晰版《程序员》杂志2012年第5期.pdf

清晰版《程序员》杂志2012年第5期.pdf ，欢迎下载

2012-07-19

nutch_1.4在windows下安装配置.pdf

nutch1.4 在windows下的安装配置环境搭建

2012-07-19

Nutch配置环境\Nutch1[1].4_windows下eclipse配置图文详解.docx

nutch 在windows下环境搭配已经如何在eclipse下配置，有配图，很详细

2012-07-19

网页正文提取工具boilerpipe1.2bin包

输入一个url或者string型的网页源码，通过该工具即可得到想要的正文信息，例如提取各大门户网站的新闻，历史，娱乐等的正文信息。网页正文提取工具，这是目前销量最高，提取一个网页正文信息只需要毫秒级的时间消耗，同时他的准确率已经是最高级别的，相信使用它之后你将得到享受级别的感受，很强大

2012-07-19

apache-solr-4.0.0-ALPHA-src.gz官方包

apache官方的solr4.0的源代码包，可以通过分析源代码提高理解，或者通过编译源码进行二次开发

2012-07-19

nutch入门教程

nutch的入门教程，包含nutch配置环境搭建，nutch原理，nutch架构分析，nutch数据分析方法，和nutch开发的知识，很有帮助

2012-07-11

dex2jar，java反汇编工具

dex2jar可以方便的反汇编java中的class文件，让你想看的代码跃然面前

2011-10-20

javaCSVapi，java操作csv文件的api

java操作cvs文件，csv文件的api，可以方便的做函数和读写功能，各种函数供您选择

2011-10-20

poi_3.7.jar

java处理excel文件操作API，还因为excel表格内容太多，处理麻烦吗，直接用poi.jar方便的读写数据

2011-10-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示

确定要删除当前文章？

取消删除