![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
NLP
文章平均质量分 75
jionlp数据分析
JioNLP 开源软件作者,数据分析专家
展开
-
豆瓣评论【数据集分享】
相信很多做自然语言处理、数据分析的小伙伴们都接触过豆瓣评论数据集。最近 《脱口秀大会5》 比较火,所以我就抓去了一份《脱5》的豆瓣短评数据集,样例如下表所示:{ "comment_time": "2022-11-02 22:37:41", "comment_score": "很差", "comment_vote": "21", "comme原创 2022-11-08 14:32:43 · 2643 阅读 · 0 评论 -
分享 2022中国行政区划文本数据集(json格式)
相信很多做自然语言处理、知识图谱、数据分析的小伙伴们都需要一份中国行政区划数据词典。行政区划分为省、市、县、乡(街道)、村(社区)等五级,如下表所示:城市{"loc_name": ["北京市"], "loc_code": "110000000000"}{"loc_name": ["北京市", "市辖区"], "loc_code": "110100000000"}{"loc_name": ["北京市", "市辖原创 2022-10-23 23:18:01 · 4388 阅读 · 0 评论 -
文本货币金额抽取与解析,JioNLP
给定一段文本,提取其中的货币金额字符串,并将所有的金额做标准化。JioNLP 中文预处理与解析工具包https://github.com/dongrixinyu/JioNLP其中,jio.ner.extract_money 与 jio.parse_money 可以从一段文本中抽取出货币金额,并将结果进行标准化。我们不妨看一个例子:给定一段文本如:海航亏损7000万港元出售香港公寓。12月12日,据《香港经济日报》报道,海航集团将持有的部分位于香港铜锣湾Yoo Residence大楼中的物业以原创 2021-10-25 20:21:54 · 2060 阅读 · 0 评论 -
时间语义解析工具 Python版,从文本中提取时间,并解析其含义,在线使用,时间语义识别
时间语义解析工具 Python版,从文本中提取时间,并解析其含义【新华社报2021-9-9】国家统计局今天发布了2021年8月份全国CPI(居民消费价格指数)需要从中抽取出 2021-9-9 和 2021年8月。然后将其规范化,形成【‘2021-09-09 00:00:00’, ‘2021-09-09 23:59:59’】和【‘2021-08-01 00:00:00’, ‘2021-08-31 23:59:59’】的形式。进而方便做各种处理。该功能由 JioNLP 包完全实现,.原创 2021-09-12 00:14:51 · 5469 阅读 · 0 评论 -
文本清洗?一个工具搞定!Python版 NLP 文本清洗工具
文本清洗是一个繁琐复杂的工作,不论是对于NLP 的开发者,还是其它领域工作者。这部分工作可以由 JioNLP 工具包一键搞定!!!⭐ 源码戳这里 => JioNLPhttps://github.com/dongrixinyu/JioNLP⭐ (在线文本清洗)戳这里 => 在线文本清洗使用工具包安装 Installationpython>=3.6github 版本略领先于 pip$ git clone https://github.com/dongrixinyu/Jio.原创 2021-09-11 23:48:05 · 6962 阅读 · 2 评论 -
提取文本中的金额,提取货币,Python实现与在线使用
给定一篇文本,提取出文本中涉及到的所有的货币和金额。例如:'张三赔偿李四人民币车费601,293.11元,工厂费一万二千三百四十五元,利息9佰日元,打印费十块钱。' 从中提取出'601,293.11元', '一万二千三百四十五元', '9佰日元', '十块钱' 这样的字符串,并把他们都规范化,形成'601293.11元', '12345.00元', '900.00日元', '10.00元' 这样的结果。方便存储和计算。⭐ 源码戳 => JioNLPhttps://github....原创 2021-09-11 23:27:20 · 3303 阅读 · 1 评论 -
提取身份证号,解析身份证号出生年月、出生地、性别 的Python 实现与在线使用工具
从一篇文本中,抽取出所包含的身份证号并解析出其中的 省、市、县、出生年月、性别、校验码。 这个功能,JioNLP帮你实现源码在 github:JioNLPhttps://github.com/dongrixinyu/JioNLP在线使用版请戳 => 抽取并解析身份证号代码安装方法:安装 Installationpython>=3.6github 版本略领先于 pip$ git clone https://github.com/dongrixinyu/JioN.....原创 2021-09-11 23:16:23 · 2795 阅读 · 0 评论 -
python 实现的 成语接龙
点这里安装 => 成语接龙 JioNLP安装 Installationpython>=3.6$ git clone https://github.com/dongrixinyu/JioNLP$ cd ./JioNLP$ pip install .成语接龙idiom_solitaire给定一条成语,返回其尾字为首的成语。import jionlp as jioidiom = input('input: ')n = 0while n < 10: idiom原创 2020-12-18 17:25:26 · 1772 阅读 · 3 评论 -
JioNLP:预处理、信息抽取、数据增强、NLP简单功能与词典,找它就对了!
JioNLP安装方式 pip install jionlp在线试用网站 www.jionlp.com来看看 JioNLP 能干什么?功能主要包括:文本清洗,去除HTML标签、异常字符、冗余字符,转换全角字母、数字、空格为半角,抽取及删除E-mail及域名、电话号码、QQ号、括号内容、身份证号、IP地址、URL超链接、货币金额与单位,解析身份证号信息、手机号码归属地、座机区号归属地,按行快速读写文件,(多功能)停用词过滤,(优化的)分句,地址解析,新闻地域识别,...原创 2020-10-30 16:35:06 · 8385 阅读 · 6 评论 -
NLP自然语言处理的文本数据增强——回译(内含python工具包)
回译自然语言处理过程经常面临缺乏数据,因此需要进行数据增强。其中,回译,即将中文翻译成外文,再翻译回中文的操作可以扩展数据集,是一种好办法。这里直接提供工具包NLP工具包-回译数据增强,可以直接调用实现回译增强,而且返回的数据非常丰富。NLP工具包-回译数据增强提供了多个大厂的公开免费翻译接口:包括百度、腾讯、谷歌、有道、讯飞 ,数据结果非常丰富;你可以自己到各个大厂的 api 官方页面申请appid 和 密钥,拿到属于自己的翻译资源;如果你可以获取到大厂的 多个 appid 和密钥,那么直接原创 2020-09-18 10:47:25 · 5326 阅读 · 2 评论