jionlp之自然语言日期识别

文章目录

前言

一、jionlp是什么?

1.优势分析

二、使用步骤

1.引入库

2.提取时间

3.解析时间

4.封装方法

5.封装为api

总结


前言

随着大模型能力的不断增强,大模型可以干的事情越来越多,利用大模型可以进行语义理解、语义识别。但是大模型也有其局限性,比如不知道时间。当你问大模型时间的时候,他的幻觉就来了。本来接下来将探讨如何解决这个问题。


一、jionlp是什么?

Jionlp 是一个Python库,主要用于处理中文自然语言处理(NLP)任务。它提供了一系列的工具和功能,旨在帮助开发者更方便地处理和分析中文文本数据。Jionlp 可能包括以下功能:

  1. 中文分词:将中文文本分解为有意义的词语单元。
  2. 词性标注:识别文本中每个词语的词性(如名词、动词等)。
  3. 命名实体识别:识别文本中的特定实体,如人名、地名、组织名等。
  4. 情感分析:分析文本的情感倾向,如积极、消极或中性。
  5. 文本分类:将文本分类到预定义的类别中。
  6. 关键词提取:从文本中提取出重要的关键词。
  7. 文本相似度计算:比较两段文本的相似程度。

Jionlp 可能还包括其他与中文文本处理相关的功能,如文本清洗、停用词过滤、词频统计等。这个库的目标是简化中文文本处理的复杂度,提供高效、易用的工具,以便开发者可以专注于他们的核心任务。

1.优势分析

使用大模型识别日期即便可行,但由于大模型运算量巨大,时间基本是秒级

使用jionlp速度则很快,可以说是毫秒级

这样jionlp在性能上、准确性上都是比大模型技高一筹,当然这里主要是说日期识别方面。

二、使用步骤

1.引入库

import time
import datetime
import jionlp as jio

2.提取时间

代码如下(示例):

text = '【新华社报2021-9-9】国家统计局今天发布了2021年8月份全国CPI(居民消费价格指数)和PPI(工业生产者出厂价格指数)数据。'
# 抽取时间实体
res = jio.ner.extract_time(text, time_base={'year': datetime.datetime.now().year})
print(res)

返回结果如下,可见识别到了多个日期信息

这里time_base参数也很重要,即确认基础时间信息,会影响相对日期

[
    {
        "text": "2021-9-9",
        "offset": [
            5,
            13
        ],
        "type": "time_point",
        "detail": {
            "type": "time_point",
            "definition": "accurate",
            "time": [
                "2021-09-09 00:00:00",
                "2021-09-09 23:59:59"
            ]
        }
    },
    {
        "text": "今天",
        "offset": [
            19,
            21
        ],
        "type": "time_point",
        "detail": {
            "type": "time_point",
            "definition": "accurate",
            "time": [
                "2024-01-01 00:00:00",
                "2024-01-01 23:59:59"
            ]
        }
    },
    {
        "text": "2021年8月份",
        "offset": [
            24,
            32
        ],
        "type": "time_point",
        "detail": {
            "type": "time_point",
            "definition": "accurate",
            "time": [
                "2021-08-01 00:00:00",
                "2021-08-31 23:59:59"
            ]
        }
    }
]

3.解析时间

代码如下(示例):

# 时间解析
res = jio.parse_time('今年9月', time_base=time.time())
res = jio.parse_time('今年9月')
print(res)

返回结果如下,可以看到第一个方法也可以识别出具体时间信息,不一样的地方在于,第一个方法没识别到日期也不会报错,但是第二个方法识别不到日期会报错

{
    "type": "time_span",
    "definition": "accurate",
    "time": [
        "2024-09-01 00:00:00",
        "2024-09-30 23:59:59"
    ]
}

4.封装方法

代码如下(示例):

def getDate(date_Str):
    """
    根据文字获取日趋信息
    """
    
    date_Str=date_Str.replace("这个月","本月")

    date={
        "start":"",
        "end":""
    }
    dateObjs = jio.ner.extract_time(date_Str, time_base=time.time())
    if len(dateObjs)>0:
        # print(dateObjs)
        # print(type(dateObjs))

        dateObj=dateObjs[0]
        # print(dateObj)
        # print(type(dateObj))
        detailTime=dateObj["detail"]["time"]
        if len(detailTime)==2:
            date['start']=detailTime[0]
            date['end']=detailTime[1]

    return date

直接传递包含日期的字符串,即可自动返回日期时间信息

5.封装为api

为了方便其他应用调用,封装为api是一个比较好的方法

使用fastapi+uvicorn是一个比较推荐的方式


总结

本文主要介绍了使用jionlp进行自然语言日期识别的方法过程,希望可以帮助到正好有需要的小伙伴。

Time-NLP 中文语句中的时间语义识别 author:shinyke 本工具是由复旦NLP中的时间分析功能修改而来,做了很多细节和功能的优化,具体如下: 泛指时间的支持,如:早上、晚上、中午、傍晚等。 时间未来倾向。 如:在周五输入“周一早上开会”,则识别到下周一早上的时间;在下午17点输入:“9点送牛奶给隔壁的汉子”则识别到第二天上午9点。 多个时间的识别,及多个时间之间上下文关系处理。如:"下月1号下午3点至5点到图书馆还书",识别到开始时间为下月1号下午三点。同时,结束时间也继承上文时间,识别到下月1号下午5点。 可自定义基准时间:指定基准时间为“2016-05-20-09-00-00-00”,则一切分析以此时间为基准。 修复了各种各样的BUG。 简而言之,这是一个输入一句话,能识别出话里的时间的工具。╮(╯▽╰)╭ 示例代码: /**  *   * 测试类  *   * @author kexm  * @version 1.0  * @since 2016年5月4日  *   */ public class TimeAnalyseTest {     @Test     public void test(){         String path = TimeNormalizer.class.getResource("").getPath();         String classPath = path.substring(0, path.indexOf("/com/time"));         System.out.println(classPath "/TimeExp.m");         TimeNormalizer normalizer = new TimeNormalizer(classPath "/TimeExp.m");         normalizer.parse("Hi,all.下周一下午三点开会");// 抽取时间         TimeUnit[] unit = normalizer.getTimeUnit();         System.out.println("Hi,all.下周一下午三点开会");         System.out.println(DateUtil.formatDateDefault(unit[0].getTime())   "-"   unit[0].getIsAllDayTime());          normalizer.parse("早上六点起床");// 注意此处识别到6天在今天已经过去,自动识别为明早六点(未来倾向,可通过开关关闭:new TimeNormalizer(classPath "/TimeExp.m", false))         unit = normalizer.getTimeUnit();         System.out.println("早上六点起床");         System.out.println(DateUtil.formatDateDefault(unit[0].getTime())   "-"   unit[0].getIsAllDayTime());         normalizer.parse("周一开会");// 如果本周已经是周二,识别为下周周一。同理处理各级时间。(未来倾向)         unit = normalizer.getTimeUnit();         System.out.println("周一开会");         System.out.println(DateUtil.formatDateDefault(unit[0].getTime())   "-"   unit[0].getIsAllDayTime());         normalizer.parse("下下周一开会");//对于上/下的识别         unit = normalizer.getTimeUnit();         System.out.println("下下周一开会");         System.out.println(DateUtil.formatDateDefault(unit[0].getTime())   "-"   unit[0].getIsAllDayTime());  
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值