区级政府数据中心公司地址短文本按所属楼宇分类的场景

数据:单位地址数据(数据不规范,约6万个单位);楼宇名称和楼宇地址数据(楼宇地址也不规范,楼宇名称分1-N号楼或者ABC座,186个楼宇)

目标:为公司找到所在楼宇

建模:抽取出楼宇名称中核心词和楼宇地址中核心词,将这些词以或关系作为where查询条件组成一个sql,用这个sql进行初步筛选;将楼宇名称和楼宇地址的短文本混合作为分类文本,将楼宇id作为分类目标构造分类器,然后以单位地址为输入进行分类;将分类后结果通过规则做进一步过滤,比如如果有x号院x号楼则院号和楼号需要对应;经过粗筛/文本算法分类/结果的规则调整就得到了最终的结果。对于存在一个公司冠名的连排楼宇,如果训练错误,可以通过复制将此分类中的一个样本改为相同的2-3个样本,这样可以增加识别的准确率。

实现:用TextGrocery作为短文本分类算法。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值