中文文本时间抽取、时间转换及标准化

16 篇文章 0 订阅
10 篇文章 2 订阅

分享一个用于文本中的时间抽取、时间转换、时间标准化的实用工具。工具地址 Github

简介

Time-Extractor的python3版本

功能说明

用于句子中时间词的抽取和转换, 主要基于Time_NLP做了部分优化

效果如下:

res = tn.parse(target=u'晚上8点到上午10点之间') # target为待分析语句,timeBase为基准时间默认是当前时间
print("extract_result:", res)
res = tn.parse(target=u'2020年二月二十八日下午四点三十分二十九秒') # target为待分析语句,timeBase为基准时间默认是当前时间
print("extract_result:", res)
res = tn.parse(target=u'预计耗时36天5小时30分') # target为待分析语句,timeBase为基准时间默认是当前时间
print("extract_result:", res)
res = tn.parse(target=u'今年国庆节上午8点') # target为待分析语句,timeBase为基准时间默认是当前时间
print("extract_result:", res)
res = tn.parse(target=u'下周五晚上') # target为待分析语句,timeBase为基准时间默认是当前时间
print("extract_result:", res)
res = tn.parse(target=u'今天早上5点')  # target为待分析语句,timeBase为基准时间默认是当前时间
print("extract_result:", res)
res = tn.parse(target=u'明年大年初一')
print("extract_result:", res)
res = tn.parse(target=u'上个月5号半夜')
print("extract_result:", res)

返回结果:

time_extractor: ['晚上8点', '上午10点']
extract_result: {"type": "timespan", "timespan": ["2020-12-26 20:00:00", "2020-12-27 10:00:00"]}
time_extractor: ['2020年2月28日下午4点30分29秒']
extract_result: {"type": "timestamp", "timestamp": "2020-02-28 16:30:29"}
time_extractor: ['36天5小时30分']
extract_result: {"type": "timedelta", "timedelta": {"year": 0, "month": 1, "day": 6, "hour": 5, "minute": 30, "second": 0}}
time_extractor: ['今年国庆节上午8点']
extract_result: {"type": "timestamp", "timestamp": "2020-10-01 08:00:00"}
time_extractor: ['下周5晚上']
extract_result: {"type": "timestamp", "timestamp": "2021-01-01 20:00:00"}
time_extractor: ['今天早上5点']
extract_result: {"type": "timestamp", "timestamp": "2020-12-26 05:00:00"}
time_extractor: ['明年初1']
extract_result: {"type": "timestamp", "timestamp": "2021-02-12 00:00:00"}
time_extractor: ['上个月5号半夜']
extract_result: {"type": "timestamp", "timestamp": "2020-11-05 23:00:00"}

使用方式详见Test.py

python Test.py

  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 能够进行数据抽取、数据清洗、数据转换以及数据接口适配的技术主要包括以下几种: 1. ETL工具:ETL是数据仓库中常用的一种技术,它能够抽取转换和加载数据,常见的ETL工具有Informatica、Talend、DataStage等。 2. Python编程语言:Python是一种通用的编程语言,拥有丰富的数据处理和数据分析库,例如Pandas、Numpy、Scikit-learn等,可以进行数据抽取、数据清洗、数据转换和数据接口适配等操作。 3. 数据库管理系统:数据库管理系统(DBMS)可以进行数据的存储、查询、更新和删除等操作,例如MySQL、Oracle、SQL Server等。 4. Web服务框架:Web服务框架能够处理HTTP请求和响应,提供Web服务接口,例如Flask、Django等,可以实现数据的接口适配。 以上技术可以单独使用,也可以结合使用,以实现数据的抽取、清洗、转换和接口适配等任务。 ### 回答2: 能进行数据抽取、数据清洗、数据转换以及数据接口适配的技术是ETL(Extract, Transform, Load)技术。 数据抽取Extract)是指从不同的数据源中提取数据,这些数据源可以是关系型数据库、非关系型数据库、文本文件、日志文件等等。数据抽取技术可以通过各种方式实现,例如使用SQL语句查询关系型数据库,使用API获取非关系型数据库的数据,使用爬虫技术从网页中提取数据等。 数据清洗(Transform)是指对提取的数据进行预处理,以确保数据的准确性和一致性。数据清洗技术包括去除重复数据、处理缺失数据、纠正错误数据、标准化数据格式等等。常见的数据清洗工具有OpenRefine、Python的pandas库等。 数据转换(Transform)是指将清洗后的数据进行适当的转换,以满足不同系统或应用程序的需求。数据转换可以包括数据格式转换、数据结构转换、数据计算等。常见的数据转换工具有Python的pandas库、Apache Spark等。 数据接口适配(Load)是指将转换后的数据加载到目标系统或应用程序中。不同的目标系统可能有不同的数据接口,因此需要进行适配以确保数据能够正确地被加载。数据接口适配可以通过编写自定义代码实现,也可以使用ETL工具进行配置。常见的ETL工具包括Talend、Informatica、SSIS等。 总之,ETL技术是一种综合的数据处理技术,能够对数据进行抽取、清洗、转换和接口适配,从而满足不同系统和应用程序对数据的需求。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值