![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
中文文本
文章平均质量分 64
jionlp数据分析
JioNLP 开源软件作者,数据分析专家
展开
-
分享 2022中国行政区划文本数据集(json格式)
相信很多做自然语言处理、知识图谱、数据分析的小伙伴们都需要一份中国行政区划数据词典。行政区划分为省、市、县、乡(街道)、村(社区)等五级,如下表所示:城市{"loc_name": ["北京市"], "loc_code": "110000000000"}{"loc_name": ["北京市", "市辖区"], "loc_code": "110100000000"}{"loc_name": ["北京市", "市辖原创 2022-10-23 23:18:01 · 4388 阅读 · 0 评论 -
文本货币金额抽取与解析,JioNLP
给定一段文本,提取其中的货币金额字符串,并将所有的金额做标准化。JioNLP 中文预处理与解析工具包https://github.com/dongrixinyu/JioNLP其中,jio.ner.extract_money 与 jio.parse_money 可以从一段文本中抽取出货币金额,并将结果进行标准化。我们不妨看一个例子:给定一段文本如:海航亏损7000万港元出售香港公寓。12月12日,据《香港经济日报》报道,海航集团将持有的部分位于香港铜锣湾Yoo Residence大楼中的物业以原创 2021-10-25 20:21:54 · 2060 阅读 · 0 评论 -
时间语义解析工具 Python版,从文本中提取时间,并解析其含义,在线使用,时间语义识别
时间语义解析工具 Python版,从文本中提取时间,并解析其含义【新华社报2021-9-9】国家统计局今天发布了2021年8月份全国CPI(居民消费价格指数)需要从中抽取出 2021-9-9 和 2021年8月。然后将其规范化,形成【‘2021-09-09 00:00:00’, ‘2021-09-09 23:59:59’】和【‘2021-08-01 00:00:00’, ‘2021-08-31 23:59:59’】的形式。进而方便做各种处理。该功能由 JioNLP 包完全实现,.原创 2021-09-12 00:14:51 · 5469 阅读 · 0 评论 -
python 实现的 成语接龙
点这里安装 => 成语接龙 JioNLP安装 Installationpython>=3.6$ git clone https://github.com/dongrixinyu/JioNLP$ cd ./JioNLP$ pip install .成语接龙idiom_solitaire给定一条成语,返回其尾字为首的成语。import jionlp as jioidiom = input('input: ')n = 0while n < 10: idiom原创 2020-12-18 17:25:26 · 1772 阅读 · 3 评论 -
Python中文文本信息抽取中常见的正则表达式
我在使用python做一些文本信息抽取的时候,用到了python的正则表达式匹配。我找了网上很多博客和文章,发现里面很多的情况考虑都太理想化,脱离实际,并不周全,所以这里对常见的python正则表达式做一个归纳。找干货直接看粗体字本文使用的是python2.7.13版本解释器。 要点包括:中文的正则匹配,python的编码格式,re包里的一些函数1. 座机电话号码网上很多的文本信息给出的座机电话号原创 2017-09-09 23:41:56 · 10627 阅读 · 1 评论 -
给定一篇文本(新闻),确定其归属地(地名)的python工具
简介给定一篇文章,可包含标题和正文(或仅标题,仅正文),确定其归属地(地名)。结果标准:区分国内国外,国外到国家名一级国内到省市一级安装使用 python3$ git clone https://github.com/dongrixinyu/location_detect.git$ cd location_detect$ pip install .使用方法样......原创 2019-07-22 21:25:05 · 1186 阅读 · 3 评论