使用正则表达式抽取新闻/BBS网页发表时间


package org.apache.nutch.parse.html;

import java.text.ParseException;
import java.text.SimpleDateFormat;
import java.util.Date;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

/**
 * 分析时间戳
 * 
 * @author xum
 * 
 */
public class PublishTimeExtract {

 private static final String TIME_REGEX = "(:|>|\\s)?20[0-9]{2}(-|/|\\.|\\u5e74)\\d{1,2}(-|/|\\.|\\u6708)\\d{1,2}(\\u65e5)?.\\d{2}(:|\\u65f6)\\d{2}((:|\\u5206)\\d{2})?";
 private static Pattern pattern = Pattern.compile(TIME_REGEX);
 private static SimpleDateFormat sdf = new SimpleDateFormat(
   "yyyy-MM-dd HH:mm:ss");
 private static final String BBS_URL = "(http://bbs/\\..*|http://www\\.tianya\\.cn/[a-zA-Z]*forum/content/.*)";

 /**
  * @param content
  * @param url
  * @return
  */
 public static String extractDate(String content, String url) {

  Matcher m = pattern.matcher(content);
  Date now = new Date();

  // BBS分析最后一个发表时间
  if (url.matches(BBS_URL)) {

   String dateStr = null;

   Date date = null;

   while (m.find()) {

    dateStr = m.group();

    if (dateStr == null)
     continue;

    dateStr = dateStr.trim().replaceAll(">", "");

    if (dateStr.startsWith(":")) {
     dateStr = dateStr.replaceFirst(":", "");
    }

    dateStr = dateStr.replaceAll("\\.|/|\\u5e74|\\u6708|\\u65e5",
      "-");
    dateStr = dateStr.replaceAll("\\u65f6|\\u5206", ":");

    Date tempDate;

    try {
     tempDate = sdf.parse(dateStr);

     if (tempDate.after(now)) {
      continue;
     }

    } catch (ParseException e) {
     continue;
    }

    if (date == null) {
     date = tempDate;
    } else if (tempDate.after(date)) {
     date = tempDate;
    }
   }

   if (date != null) {

    return (date.getTime() + (long) 8 * 3600 * 1000) + "";
   }

  } else { // 新闻网页分析第一个出现的时间

   String dateStr = null;

   if (m.find()) {
    dateStr = m.group();
   }

   if (dateStr != null) {

    dateStr = dateStr.trim().replaceAll(">", "");

    if (dateStr.startsWith(":")) {
     dateStr = dateStr.replaceFirst(":", "");
    }

    dateStr = dateStr.replaceAll("\\.|/|\\u5e74|\\u6708|\\u65e5",
      "-");
    dateStr = dateStr.replaceAll("\\u65f6|\\u5206", ":");

    try {

     return (sdf.parse(dateStr).getTime() + (long) 8 * 3600 * 1000)
       + "";

    } catch (ParseException e) {
     return ((new Date()).getTime() + (long) 8 * 3600 * 1000)
       + "";
    }
   }
  }

  return ((new Date()).getTime() + (long) 8 * 3600 * 1000) + "";
 }

}
 

 本文转自william_xu 51CTO博客,原文链接:http://blog.51cto.com/williamx/790610,如需转载请自行联系原作者

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值