自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Cyber的博客

专注Python的菜鸟一枚

  • 博客(1)
  • 收藏
  • 关注

原创 Python:批量提取文本中的共性部分并转化为正则表达式

前言有一种竞赛需要:有5万条html文本,是由30个模板结合一个地址库结合起来的,每个模板里都有5-7个位置可以选择插入或不插入地址,地址分为6级:province(省)、city(市)、district(区)、township(镇)、street(街)、street_num(街号)。因为模板里分为right(真实的辅助地址)、wrong(错误的干扰地址)和main(street+street_num的主要地址)三种位置,所以需要对地址进行提取。常规的做法是将地址库进行全文检索,并根据某种规则判断出ri

2020-10-18 10:15:25 1172 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除