jionlp之自然语言日期识别

龙井茶Sky

已于 2024-07-16 16:26:39 修改

阅读量1.1k

点赞数 3

分类专栏： AI 文章标签： jionlp 日期识别

于 2024-07-16 16:25:05 首次发布

本文链接：https://blog.csdn.net/to_love_/article/details/140312701

版权

AI 专栏收录该内容

20 篇文章

订阅专栏

文章目录

前言

随着大模型能力的不断增强，大模型可以干的事情越来越多，利用大模型可以进行语义理解、语义识别。但是大模型也有其局限性，比如不知道时间。当你问大模型时间的时候，他的幻觉就来了。本来接下来将探讨如何解决这个问题。

一、jionlp是什么？

Jionlp 是一个Python库，主要用于处理中文自然语言处理（NLP）任务。它提供了一系列的工具和功能，旨在帮助开发者更方便地处理和分析中文文本数据。Jionlp 可能包括以下功能：

中文分词：将中文文本分解为有意义的词语单元。
词性标注：识别文本中每个词语的词性（如名词、动词等）。
命名实体识别：识别文本中的特定实体，如人名、地名、组织名等。
情感分析：分析文本的情感倾向，如积极、消极或中性。
文本分类：将文本分类到预定义的类别中。
关键词提取：从文本中提取出重要的关键词。
文本相似度计算：比较两段文本的相似程度。

Jionlp 可能还包括其他与中文文本处理相关的功能，如文本清洗、停用词过滤、词频统计等。这个库的目标是简化中文文本处理的复杂度，提供高效、易用的工具，以便开发者可以专注于他们的核心任务。

1.优势分析

使用大模型识别日期即便可行，但由于大模型运算量巨大，时间基本是秒级

使用jionlp速度则很快，可以说是毫秒级

这样jionlp在性能上、准确性上都是比大模型技高一筹，当然这里主要是说日期识别方面。

二、使用步骤

1.引入库

import time
import datetime
import jionlp as jio

2.提取时间

代码如下（示例）：

text = '【新华社报2021-9-9】国家统计局今天发布了2021年8月份全国CPI（居民消费价格指数）和PPI（工业生产者出厂价格指数）数据。'
# 抽取时间实体
res = jio.ner.extract_time(text, time_base={'year': datetime.datetime.now().year})
print(res)

返回结果如下，可见识别到了多个日期信息

这里time_base参数也很重要，即确认基础时间信息，会影响相对日期

[
    {
        "text": "2021-9-9",
        "offset": [
            5,
            13
        ],
        "type": "time_point",
        "detail": {
            "type": "time_point",
            "definition": "accurate",
            "time": [
                "2021-09-09 00:00:00",
                "2021-09-09 23:59:59"
            ]
        }
    },
    {
        "text": "今天",
        "offset": [
            19,
            21
        ],
        "type": "time_point",
        "detail": {
            "type": "time_point",
            "definition": "accurate",
            "time": [
                "2024-01-01 00:00:00",
                "2024-01-01 23:59:59"
            ]
        }
    },
    {
        "text": "2021年8月份",
        "offset": [
            24,
            32
        ],
        "type": "time_point",
        "detail": {
            "type": "time_point",
            "definition": "accurate",
            "time": [
                "2021-08-01 00:00:00",
                "2021-08-31 23:59:59"
            ]
        }
    }
]

3.解析时间

代码如下（示例）：

# 时间解析
res = jio.parse_time('今年9月', time_base=time.time())
res = jio.parse_time('今年9月')
print(res)

返回结果如下，可以看到第一个方法也可以识别出具体时间信息，不一样的地方在于，第一个方法没识别到日期也不会报错，但是第二个方法识别不到日期会报错

{
    "type": "time_span",
    "definition": "accurate",
    "time": [
        "2024-09-01 00:00:00",
        "2024-09-30 23:59:59"
    ]
}

4.封装方法

代码如下（示例）：

def getDate(date_Str):
    """
    根据文字获取日趋信息
    """
    
    date_Str=date_Str.replace("这个月","本月")

    date={
        "start":"",
        "end":""
    }
    dateObjs = jio.ner.extract_time(date_Str, time_base=time.time())
    if len(dateObjs)>0:
        # print(dateObjs)
        # print(type(dateObjs))

        dateObj=dateObjs[0]
        # print(dateObj)
        # print(type(dateObj))
        detailTime=dateObj["detail"]["time"]
        if len(detailTime)==2:
            date['start']=detailTime[0]
            date['end']=detailTime[1]

    return date

直接传递包含日期的字符串，即可自动返回日期时间信息