正则表达式re
文章平均质量分 51
jionlp数据分析
JioNLP 开源软件作者,数据分析专家
展开
-
文本清洗?一个工具搞定!Python版 NLP 文本清洗工具
文本清洗是一个繁琐复杂的工作,不论是对于NLP 的开发者,还是其它领域工作者。这部分工作可以由 JioNLP 工具包一键搞定!!!⭐ 源码戳这里 => JioNLPhttps://github.com/dongrixinyu/JioNLP⭐ (在线文本清洗)戳这里 => 在线文本清洗使用工具包安装 Installationpython>=3.6github 版本略领先于 pip$ git clone https://github.com/dongrixinyu/Jio.原创 2021-09-11 23:48:05 · 7338 阅读 · 2 评论 -
提取文本中的金额,提取货币,Python实现与在线使用
给定一篇文本,提取出文本中涉及到的所有的货币和金额。例如:'张三赔偿李四人民币车费601,293.11元,工厂费一万二千三百四十五元,利息9佰日元,打印费十块钱。' 从中提取出'601,293.11元', '一万二千三百四十五元', '9佰日元', '十块钱' 这样的字符串,并把他们都规范化,形成'601293.11元', '12345.00元', '900.00日元', '10.00元' 这样的结果。方便存储和计算。⭐ 源码戳 => JioNLPhttps://github....原创 2021-09-11 23:27:20 · 3424 阅读 · 1 评论 -
提取身份证号,解析身份证号出生年月、出生地、性别 的Python 实现与在线使用工具
从一篇文本中,抽取出所包含的身份证号并解析出其中的 省、市、县、出生年月、性别、校验码。 这个功能,JioNLP帮你实现源码在 github:JioNLPhttps://github.com/dongrixinyu/JioNLP在线使用版请戳 => 抽取并解析身份证号代码安装方法:安装 Installationpython>=3.6github 版本略领先于 pip$ git clone https://github.com/dongrixinyu/JioN.....原创 2021-09-11 23:16:23 · 2854 阅读 · 0 评论 -
Python中文文本信息抽取中常见的正则表达式
我在使用python做一些文本信息抽取的时候,用到了python的正则表达式匹配。我找了网上很多博客和文章,发现里面很多的情况考虑都太理想化,脱离实际,并不周全,所以这里对常见的python正则表达式做一个归纳。找干货直接看粗体字本文使用的是python2.7.13版本解释器。 要点包括:中文的正则匹配,python的编码格式,re包里的一些函数1. 座机电话号码网上很多的文本信息给出的座机电话号原创 2017-09-09 23:41:56 · 10676 阅读 · 1 评论 -
给定一篇文本(新闻),确定其归属地(地名)的python工具
简介给定一篇文章,可包含标题和正文(或仅标题,仅正文),确定其归属地(地名)。结果标准:区分国内国外,国外到国家名一级国内到省市一级安装使用 python3$ git clone https://github.com/dongrixinyu/location_detect.git$ cd location_detect$ pip install .使用方法样......原创 2019-07-22 21:25:05 · 1216 阅读 · 3 评论