第六章(1.4)自然语言处理实战——时间语义抽取

52 篇文章 8 订阅
43 篇文章 1 订阅
  • 项目github地址:https://github.com/liangzhicheng120/nlp

一、简介

本工具是由复旦NLP中的时间分析功能修改而来,做了一些细节和功能的优化,经SpringBoot封装成web工具。

  • 泛指时间的支持,如:早上、晚上、中午、傍晚等。
  • 时间未来倾向。 如:在周五输入“周一早上开会”,则识别到下周一早上的时间;在下午17点输入:“9点送牛奶给隔壁的汉- 子”则识别到第二天上午9点。
  • 多个时间的识别,及多个时间之间上下文关系处理。如:“下月1号下午3点至5点到图书馆还书”,识别到开始时间为下月1号下午三点。同时,结束时间也继承上文时间,识别到下月1号下午5点。
  • 可自定义基准时间:指定基准时间为“2016-05-20-09-00-00-00”,则一切分析以此时间为基准。

二、运用

package com.time.nlp;

import java.util.regex.Pattern;

import com.time.nlp.time.TimeNormalizer;
import com.time.nlp.time.TimeUnit;
import com.time.nlp.time.util.DateUtil;

public class TimeAnalyseTest {

	public static void main(String[] args) {
//		String path = TimeNormalizer.class.getResource("").getPath();
//		String classPath = path.substring(0, path.indexOf("/com/time"));
//		System.out.println(classPath + "/TimeExp.m");
//		TimeNormalizer normalizer = new TimeNormalizer(classPath + "/TimeExp.m");
//
//		String content = "明天上午9点半在大明湖畔召开需求评审会议。";
//		normalizer.parse(content);// 抽取时间
//		TimeUnit[] unit = normalizer.getTimeUnit();
//		System.out.println(content);
//		for (TimeUnit timeUnit : unit) {
//			System.out.println(DateUtil.formatDateDefault(timeUnit.getTime()) + "-" + timeUnit.getIsAllDayTime());
//		}
		
		test();
	}

	public static void test() {
		String path = TimeNormalizer.class.getResource("").getPath();
		String classPath = path.substring(0, path.indexOf("/com/time"));
		System.out.println(classPath + "/TimeExp.m");
		TimeNormalizer normalizer = new TimeNormalizer(classPath + "/TimeExp.m");

		normalizer.parse("Hi,all.下周一下午三点开会");// 抽取时间
		TimeUnit[] unit = normalizer.getTimeUnit();
		System.out.println("Hi,all.下周一下午三点开会");
		System.out.println(DateUtil.formatDateDefault(unit[0].getTime()) + "-" + unit[0].getIsAllDayTime());

		normalizer.parse("早上六点起床");// 注意此处识别到6天在今天已经过去,自动识别为明早六点(未来倾向,可通过开关关闭:new
								   // TimeNormalizer(classPath+"/TimeExp.m",
								   // false))
		unit = normalizer.getTimeUnit();
		System.out.println("早上六点起床");
		System.out.println(DateUtil.formatDateDefault(unit[0].getTime()) + "-" + unit[0].getIsAllDayTime());

		normalizer.parse("周一开会");// 如果本周已经是周二,识别为下周周一。同理处理各级时间。(未来倾向)
		unit = normalizer.getTimeUnit();
		System.out.println("周一开会");
		System.out.println(DateUtil.formatDateDefault(unit[0].getTime()) + "-" + unit[0].getIsAllDayTime());

		normalizer.parse("下下周一开会");// 对于上/下的识别
		unit = normalizer.getTimeUnit();
		System.out.println("下下周一开会");
		System.out.println(DateUtil.formatDateDefault(unit[0].getTime()) + "-" + unit[0].getIsAllDayTime());

		normalizer.parse("6:30 起床");// 严格时间格式的识别
		unit = normalizer.getTimeUnit();
		System.out.println("6:30 起床");
		System.out.println(DateUtil.formatDateDefault(unit[0].getTime()) + "-" + unit[0].getIsAllDayTime());

		normalizer.parse("6-3 春游");// 严格时间格式的识别
		unit = normalizer.getTimeUnit();
		System.out.println("6-3 春游");
		System.out.println(DateUtil.formatDateDefault(unit[0].getTime()) + "-" + unit[0].getIsAllDayTime());

		normalizer.parse("6月3  春游");// 残缺时间的识别 (打字输入时可便捷用户)
		unit = normalizer.getTimeUnit();
		System.out.println("6月3  春游");
		System.out.println(DateUtil.formatDateDefault(unit[0].getTime()) + "-" + unit[0].getIsAllDayTime());

		normalizer.parse("明天早上跑步");// 模糊时间范围识别(可在RangeTimeEnum中修改
		unit = normalizer.getTimeUnit();
		System.out.println("明天早上跑步");
		System.out.println(DateUtil.formatDateDefault(unit[0].getTime()) + "-" + unit[0].getIsAllDayTime());

		normalizer.parse("本周日到下周日出差");// 多时间识别
		unit = normalizer.getTimeUnit();
		System.out.println("本周日到下周日出差");
		System.out.println(DateUtil.formatDateDefault(unit[0].getTime()) + "-" + unit[0].getIsAllDayTime());
		System.out.println(DateUtil.formatDateDefault(unit[1].getTime()) + "-" + unit[1].getIsAllDayTime());

		normalizer.parse("周四下午三点到五点开会");// 多时间识别,注意第二个时间点用了第一个时间的上文
		unit = normalizer.getTimeUnit();
		System.out.println("周四下午三点到五点开会");
		System.out.println(DateUtil.formatDateDefault(unit[0].getTime()) + "-" + unit[0].getIsAllDayTime());
		System.out.println(DateUtil.formatDateDefault(unit[1].getTime()) + "-" + unit[1].getIsAllDayTime());

		// 新闻随机抽取长句识别(2016年6月7日新闻,均以当日0点为基准时间计算)
		// 例1
		normalizer.parse("昨天上午,第八轮中美战略与经济对话气候变化问题特别联合会议召开。中国气候变化事务特别代表解振华表示,今年中美两国在应对气候变化多边进程中政策对话的重点任务,是推动《巴黎协定》尽早生效。", "2016-06-07-00-00-00");
		unit = normalizer.getTimeUnit();
		System.out.println("昨天上午,第八轮中美战略与经济对话气候变化问题特别联合会议召开。中国气候变化事务特别代表解振华表示,今年中美两国在应对气候变化多边进程中政策对话的重点任务,是推动《巴黎协定》尽早生效。");
		for (int i = 0; i < unit.length; i++) {
			System.out.println("时间文本:" + unit[i].Time_Expression + ",对应时间:" + DateUtil.formatDateDefault(unit[i].getTime()));
		}

		// 例2
		normalizer.parse("《辽宁日报》今日报道,6月3日辽宁召开省委常委扩大会,会议从下午两点半开到六点半,主要议题为:落实中央巡视整改要求。", "2016-06-07-00-00-00");
		unit = normalizer.getTimeUnit();
		System.out.println("《辽宁日报》今日报道,6月3日辽宁召开省委常委扩大会,会议从下午两点半开到六点半,主要议题为:落实中央巡视整改要求。");
		for (int i = 0; i < unit.length; i++) {
			System.out.println("时间文本:" + unit[i].Time_Expression + ",对应时间:" + DateUtil.formatDateDefault(unit[i].getTime()));
		}

		// 例3
		normalizer.parse("去年11月起正式实施的刑法修正案(九)中明确,在法律规定的国家考试中,组织作弊的将入刑定罪,最高可处七年有期徒刑。另外,本月刚刚开始实施的新版《教育法》中也明确...", "2016-06-07-00-00-00");
		unit = normalizer.getTimeUnit();
		System.out.println("去年11月起正式实施的刑法修正案(九)中明确,在法律规定的国家考试中,组织作弊的将入刑定罪,最高可处七年有期徒刑。另外,本月刚刚开始实施的新版《教育法》中也明确...");
		for (int i = 0; i < unit.length; i++) {
			System.out.println("时间文本:" + unit[i].Time_Expression + ",对应时间:" + DateUtil.formatDateDefault(unit[i].getTime()));
		}
	}

	/**
	 * 测试正则表达式是否加载成功
	 */
	public void editTimeExp() {
		String path = TimeNormalizer.class.getResource("").getPath();
		String classPath = path.substring(0, path.indexOf("/com/time"));
		System.out.println(classPath + "/TimeExp.m");
		/** 写TimeExp */
		Pattern p = Pattern.compile("your-regex");
		try {
			TimeNormalizer.writeModel(p, classPath + "/TimeExp.m");
		} catch (Exception e) {
			e.printStackTrace();
		}
	}
}

三、运行结果

Hi,all.下周一下午三点开会
2018-03-19 15:00:00-false
早上六点起床
2018-03-13 06:00:00-false
周一开会
2018-03-19 00:00:00-true
下下周一开会
2018-03-26 00:00:00-true
6:30 起床
2018-03-13 06:30:00-false
6-3 春游
2018-06-03 00:00:00-true
6月3  春游
2018-06-01 00:00:00-true
明天早上跑步
2018-03-13 08:00:00-false
本周日到下周日出差
2018-03-18 00:00:00-true
2018-03-25 00:00:00-true
周四下午三点到五点开会
2018-03-15 15:00:00-false
2018-03-15 17:00:00-false
昨天上午,第八轮中美战略与经济对话气候变化问题特别联合会议召开。中国气候变化事务特别代表解振华表示,今年中美两国在应对气候变化多边进程中政策对话的重点任务,是推动《巴黎协定》尽早生效。
时间文本:昨天上午,对应时间:2016-06-06 10:00:00
时间文本:今年,对应时间:2016-01-01 00:00:00
《辽宁日报》今日报道,6月3日辽宁召开省委常委扩大会,会议从下午两点半开到六点半,主要议题为:落实中央巡视整改要求。
时间文本:今日,对应时间:2016-06-07 00:00:00
时间文本:6月3日,对应时间:2016-06-03 00:00:00
时间文本:下午2点半,对应时间:2016-06-03 14:30:00
时间文本:6点半,对应时间:2016-06-03 18:30:00
去年11月起正式实施的刑法修正案(九)中明确,在法律规定的国家考试中,组织作弊的将入刑定罪,最高可处七年有期徒刑。另外,本月刚刚开始实施的新版《教育法》中也明确...
时间文本:去年11月,对应时间:2015-11-01 00:00:00
时间文本:本月,对应时间:2016-06-01 00:00:00

关注我的技术公众号《漫谈人工智能》,每天推送优质文章

  • 4
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 10
    评论
Time-NLP 中文语句中的时间语义识别 author:shinyke 本工具是由复旦NLP中的时间分析功能修改而来,做了很多细节和功能的优化,具体如下: 泛指时间的支持,如:早上、晚上、中午、傍晚等。 时间未来倾向。 如:在周五输入“周一早上开会”,则识别到下周一早上的时间;在下午17点输入:“9点送牛奶给隔壁的汉子”则识别到第二天上午9点。 多个时间的识别,及多个时间之间上下文关系处理。如:"下月1号下午3点至5点到图书馆还书",识别到开始时间为下月1号下午三点。同时,结束时间也继承上文时间,识别到下月1号下午5点。 可自定义基准时间:指定基准时间为“2016-05-20-09-00-00-00”,则一切分析以此时间为基准。 修复了各种各样的BUG。 简而言之,这是一个输入一句话,能识别出话里的时间的工具。╮(╯▽╰)╭ 示例代码: /**  *   * 测试类  *   * @author kexm  * @version 1.0  * @since 2016年5月4日  *   */ public class TimeAnalyseTest {     @Test     public void test(){         String path = TimeNormalizer.class.getResource("").getPath();         String classPath = path.substring(0, path.indexOf("/com/time"));         System.out.println(classPath "/TimeExp.m");         TimeNormalizer normalizer = new TimeNormalizer(classPath "/TimeExp.m");         normalizer.parse("Hi,all.下周一下午三点开会");// 抽取时间         TimeUnit[] unit = normalizer.getTimeUnit();         System.out.println("Hi,all.下周一下午三点开会");         System.out.println(DateUtil.formatDateDefault(unit[0].getTime())   "-"   unit[0].getIsAllDayTime());          normalizer.parse("早上六点起床");// 注意此处识别到6天在今天已经过去,自动识别为明早六点(未来倾向,可通过开关关闭:new TimeNormalizer(classPath "/TimeExp.m", false))         unit = normalizer.getTimeUnit();         System.out.println("早上六点起床");         System.out.println(DateUtil.formatDateDefault(unit[0].getTime())   "-"   unit[0].getIsAllDayTime());         normalizer.parse("周一开会");// 如果本周已经是周二,识别为下周周一。同理处理各级时间。(未来倾向)         unit = normalizer.getTimeUnit();         System.out.println("周一开会");         System.out.println(DateUtil.formatDateDefault(unit[0].getTime())   "-"   unit[0].getIsAllDayTime());         normalizer.parse("下下周一开会");//对于上/下的识别         unit = normalizer.getTimeUnit();         System.out.println("下下周一开会");         System.out.println(DateUtil.formatDateDefault(unit[0].getTime())   "-"   unit[0].getIsAllDayTime());  

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 10
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

两只橙

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值