- 博客(8)
- 收藏
- 关注
原创 nutch的一些分析
之前对nutch进行些分析,打算在基础上进行一些应用,不过最近忙着,也没弄出个所以然,先把阅读心得贴出来,里边可能有不少理解上的错误,仅供参考用,万一突然有人转载了,请保留blog出处 。也希望能认识跟多对此话题感兴趣的朋友。 主要类分析:一、org.apache.nutch.crawl.Injector: 1,注入url.txt 2,url标准化 3,拦截url,...
2011-12-11 22:08:04 118
原创 NUTCH中的not in gzip format异常处理
Nutch爬虫爬取某网页是出现下列异常:ERROR http.Http (?:invoke0(?)) - java.io.IOException: unzipBestEffort returned nullERROR http.Http (?:invoke0(?)) - at org.apache.nutch.protocol.http.api.HttpBase.processGzipEnco...
2011-06-10 18:18:19 167
原创 robots.txt与SEO
robots.txt什么是robots.txt? robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。Robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有...
2011-06-09 09:31:20 122
原创 Hibernate配置属性
表 3.3. Hibernate配置属性 属性名 用途 hibernate.dialect 一个Hibernate Dialect类名允许Hibernate针对特定的关系数据库生成优化的SQL.取值 full.classname.of.Dialect hibernate.show_sql 输出所有SQL语句到控制台. 有一个另外的...
2011-03-27 19:51:11 104
原创 软件命名规范(版本号)
软件命名规范软件版本阶段说明Base版: 此版本表示该软件仅仅是一个假页面链接,通常包括所有的功能和页面布局,但是页面中的功能都没有做完整的实现,只是做为整体网站的一个基础架构。Alpha版: 此版本表示该软件在此阶段主要是以实现软件功能为主,通常只在软件开发者内部交流,一般而言,该版本软件的Bug较多,需要继续修改。Beta版: 该版本相对于α版已有了很大的改进,消除...
2010-12-14 13:49:38 134
原创 SSH Log4j 配置信息
web.xml的配置信息 log4jConfigLocation /WEB-INF/log4j.properties log4jRefreshInterval 6000 org.springframework.web.util.Log4jConfigListener log4j.propert...
2010-09-02 20:54:58 120
原创 正则表达式的几种使用方法
1 . 使用java自带的类import java.util.regex.Matcher;import java.util.regex.Pattern;public class T { public static void main(String[] args) { String str = "adfadchen"; Str...
2010-06-28 21:39:20 213
原创 SSH整合中的异常
最近熬夜看世界杯太厉害,开发中老出错,又出现一个异常,自己太粗心了,特此做个标记2010-6-18 11:25:19 org.apache.catalina.core.StandardWrapperValve invoke严重: Servlet.service() for servlet action threw exceptionjava.lang.NullPointerExce...
2010-06-18 11:27:11 87
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人