NLP实体命名识别之时间识别

该程序在酒店预定系统中处理中文文本时间,统一转换为'%Y-%m-%d %H:%M:%S'格式。文章通过代码解析,展示了如何处理不同格式的时间并进行转换,包括年份规范化和正则表达式应用。
摘要由CSDN通过智能技术生成

本程序针对的是酒店的预定系统,已经将语音转换为中文文本的情况下,将时间转换为统一的格式输出。我们可能会遇到如“八月14”,“2018年6月”,“20160502”这样的格式,最后统一转换为Python中‘%Y-%m-%d %H:%M:%S’这种时间格式输出,下面展示的是整个程序最后的效果:

text1 = '我要住到明天下午六点'
print(text1, time_extract(text1), sep=':')

text2 = '预定30号的房间'
print(text2, time_extract(text2), sep=':')

text3 = '我要从27号下午5点住到10月5号'
print(text3, time_extract(text3), sep=':')

我要住到明天下午六点:['2018-08-15 18:00:00']
预定30号的房间:['2018-08-30 00:00:00']
我要从27号下午5点住到10月5号:['2018-08-27 17:00:00', '2018-10-05 00:00:00']

 我们将整体的代码分解成三部分来看,先看第一部分,将输入的带有时间标志的文本进行两部处理,一是在时间前加上统一的年月日,方便后期的输出,二是将涉及到两个日期的部分分割出来。

#提取文本中的时间部分
from datetime import datetime,timedelta
import jieba.posseg as psg
def time_extract(text):
    time_res = []
    word = ''
    keyDate = {'今天':0,'明天':1,'后天':2}
    for k,v in psg.cut(text):
        if k in keyDate.keys():
            if word != '':
                time_res.append(word)
            word = (datetime.today() + timedelta(days=keyDate.get(k,0))).strft
Time-NLP 中文语句中的时间语义识别 author:shinyke 本工具是由复旦NLP中的时间分析功能修改而来,做了很多细节和功能的优化,具体如下: 泛指时间的支持,如:早上、晚上、中午、傍晚等。 时间未来倾向。 如:在周五输入“周一早上开会”,则识别到下周一早上的时间;在下午17点输入:“9点送牛奶给隔壁的汉子”则识别到第二天上午9点。 多个时间识别,及多个时间之间上下文关系处理。如:"下月1号下午3点至5点到图书馆还书",识别到开始时间为下月1号下午三点。同时,结束时间也继承上文时间识别到下月1号下午5点。 可自定义基准时间:指定基准时间为“2016-05-20-09-00-00-00”,则一切分析以此时间为基准。 修复了各种各样的BUG。 简而言之,这是一个输入一句话,能识别出话里的时间的工具。╮(╯▽╰)╭ 示例代码: /**  *   * 测试类  *   * @author kexm  * @version 1.0  * @since 2016年5月4日  *   */ public class TimeAnalyseTest {     @Test     public void test(){         String path = TimeNormalizer.class.getResource("").getPath();         String classPath = path.substring(0, path.indexOf("/com/time"));         System.out.println(classPath "/TimeExp.m");         TimeNormalizer normalizer = new TimeNormalizer(classPath "/TimeExp.m");         normalizer.parse("Hi,all.下周一下午三点开会");// 抽取时间         TimeUnit[] unit = normalizer.getTimeUnit();         System.out.println("Hi,all.下周一下午三点开会");         System.out.println(DateUtil.formatDateDefault(unit[0].getTime())   "-"   unit[0].getIsAllDayTime());          normalizer.parse("早上六点起床");// 注意此处识别到6天在今天已经过去,自动识别为明早六点(未来倾向,可通过开关关闭:new TimeNormalizer(classPath "/TimeExp.m", false))         unit = normalizer.getTimeUnit();         System.out.println("早上六点起床");         System.out.println(DateUtil.formatDateDefault(unit[0].getTime())   "-"   unit[0].getIsAllDayTime());         normalizer.parse("周一开会");// 如果本周已经是周二,识别为下周周一。同理处理各级时间。(未来倾向)         unit = normalizer.getTimeUnit();         System.out.println("周一开会");         System.out.println(DateUtil.formatDateDefault(unit[0].getTime())   "-"   unit[0].getIsAllDayTime());         normalizer.parse("下下周一开会");//对于上/下的识别         unit = normalizer.getTimeUnit();         System.out.println("下下周一开会");         System.out.println(DateUtil.formatDateDefault(unit[0].getTime())   "-"   unit[0].getIsAllDayTime());  
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值