自动识别地址省市区、手机号、姓名,淘宝的地址自动识别

本文介绍了如何解析字符串中的省市区、手机号和姓名,通过一系列的模糊查询和概率计算方法,实现类似淘宝地址自动识别的功能。文章讨论了在处理不规范地址时遇到的问题及解决方案,并展示了不同格式地址的解析效果。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

  由于公司软件需求,需要将一段字符串进行解析出省、市、区、街道、详细地址、手机、姓名。类似淘宝的地址自动识别,研究了一个下午加一个上午,换了好多种算法。

  • 手机号
    这个不难,将字符串用特定的符号分割,如:英文逗号、中文逗号、空格
    分割出来的数组进行字数统计,找到11位字符且可以转换为数字的就是手机号,当然不嫌麻烦也可以用正则
  • 姓名
    这个不简单,如果输入的都是正常的姓名那也简单,做一个百家姓的数据表。匹配第一个字,且字数不要超过4个。中国4个字的姓名真的不多。
    但现在地址里写的可能都不会是真实姓名,且超过5个字的昵称,那就麻烦了。
    所以现在用的就是长度对比,数组里长度最长的当作地址来解析,排去手机号,剩下的当作姓名。(暂时没有想到更好的方法)
  • 地址
    真的走了好多弯路
  1. 省市区分割
    这个思路是最早的思路一串字符串用省市区去分割,显然对正规的地址是有效的。但我如果"浙江宁波海曙",这样就找不到了。
    失败!
  2. 模糊查询(统计法)
    既然地址里的省市区都可能不全,那我就用模糊查询,然后查询到的数据存入数组,且做次数统计。
    如地址是:河南郑州100号100幢
    先搜索“河”,如图

    总计1600多条匹配信息,OK!加入数组下一步

可以使用 Apache POI 库来实现 Java 解析 Excel 文件的功能,并使用正则表达式来匹配手机号姓名省市区信息。 首先,你需要导入 Apache POI 库,然后使用其提供的 API 来读取 Excel 文件中的数据。 然后,你可以使用正则表达式来匹配手机号省市区信息,例如: 手机号:使用正则表达式 `\d{11}` 来匹配11位数字,即手机号省市区:你可以使用第三方库或者公开数据源来获取省市区信息,然后使用正则表达式来匹配相应的信息。 最后,将匹配到的信息保存到一个数据结构中,例如一个 List 或者一个 Map。 以下是一个简单的示例代码,可以帮助你入门: ```java import java.io.FileInputStream; import java.util.ArrayList; import java.util.List; import java.util.regex.Matcher; import java.util.regex.Pattern; import org.apache.poi.ss.usermodel.Cell; import org.apache.poi.ss.usermodel.Row; import org.apache.poi.ss.usermodel.Sheet; import org.apache.poi.ss.usermodel.Workbook; import org.apache.poi.ss.usermodel.WorkbookFactory; public class ExcelParser { public static void main(String[] args) { try { // 读取 Excel 文件 Workbook workbook = WorkbookFactory.create(new FileInputStream("data.xlsx")); Sheet sheet = workbook.getSheetAt(0); // 定义正则表达式 Pattern phonePattern = Pattern.compile("\\d{11}"); Pattern areaPattern = Pattern.compile("上海市浦东新区"); // 定义数据结构 List<String> names = new ArrayList<>(); List<String> phones = new ArrayList<>(); List<String> areas = new ArrayList<>(); // 遍历所有行 for (Row row : sheet) { // 获取单元格数据 Cell nameCell = row.getCell(0); Cell phoneCell = row.getCell(1); Cell areaCell = row.getCell(2); // 匹配手机号 String phone = phoneCell.getStringCellValue(); Matcher phoneMatcher = phonePattern.matcher(phone); if (phoneMatcher.matches()) { phones.add(phone); } // 匹配省市区 String area = areaCell.getStringCellValue(); Matcher areaMatcher = areaPattern.matcher(area); if (areaMatcher.matches()) { areas.add(area); } // 匹配姓名 String name = nameCell.getStringCellValue(); if (!phoneMatcher.matches() && !areaMatcher.matches()) { names.add(name); } } // 输出结果 for (int i = 0; i < names.size(); i++) { System.out.println(names.get(i) + " " + phones.get(i) + " " + areas.get(i)); } // 关闭 Excel 文件 workbook.close(); } catch (Exception e) { e.printStackTrace(); } } } ``` 注意:上面的代码示例是针对 xlsx 格式的 Excel 文件,如果你要解析 xls 格式的文件,则需要使用不同的 API。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值