[SQL] 通过工商信息筛选潜在客户

今日心情 :佛系的很


对于业务来说,经常会碰到一种需求:手里有一个公司名单(可能也就十几二十个公司名称),深入接触了几次之后,发现这类公司似乎合作意向都很大,具有很大的开发潜力。如果能找到跟这些公司相类似的企业,说不定能扩大客户池,进而带来业绩的增长,收获很多小钱钱。

如果还不会数据挖掘算法,如何先给出一份比较可靠的同类公司名单呢?头大。。。

不过既然要找相似企业,免不了要检索全国所有公司,如果数据库里有全国企业的工商信息数据,可以考虑用SQL先来应个急。

声明:本文重点在于介绍处理这类问题的思路,数据都是东拼西凑的。如有相同,纯属巧合

第一步:获取样本企业的相关信息

已知,样本企业名单如下:

公司A、公司B、公司C、公司D、公司E、公司F、公司G、公司H、公司I、公司J、公司K、公司L、公司M、公司N、公司O、公司P、公司Q、公司R、公司S、公司T

企业工商信息表结构(表结构参考 国家企业信用信息公式系统 中企业的营业执照信息)如下:

表名:enterprise (企业工商信息表)
字段含义 字段名称
统一社会信用代码 crn
企业名称 entity_name
企业类型 entity_type
法定代表人 legal_repr
注册资本(万) regist_capital
成立日期 establish_date
营业期限自 start_from
营业期限至 start_to
登记机关 register_org
核准日期 approve_date
登记状态 status
住所 address
经营范围 scope

在工商数据表中查询样本企业的工商信息:

select * from enterprise where entity_name in ('公司A''公司B''公司C''公司D''公司E''公司F''公司G''公司H''公司I''公司J''公司K''公司L''公司M''公司N''公司O''公司P''公司Q''公司R''公司S''公司T')

在这里插入图片描述

第二步:提取样本企业的特征

能作为特征的,都是有具有较强标识性的。比如一个人,性别可以作为TA的一个特征,但是过于宽泛。我们若是想进一步知道TA是哪一类人,就得再给他贴一些标识,或者标签。而且这些标签得是简短、概括性的。比如:长发、胸大、腰细等,这样,这个人就会在我们的脑海里更加的具象化(想太多的,自行面壁去)。

而对于一个只知道工商信息的企业来说,能用来判断是否是同类企业的最重要字段也就是经营范围了。但是经营范围都是一大段一大段的,所以我们得对它进行语义上的分析,用更简短的词语,去标识这个企业。

经营范围分词

将刚刚获取的样本企业的工商数据导出为csv文件(文件名:sample_enter.csv),用python对所有样本企业的经营范围进行分词

1.也可以用python连接数据库,执行sql语句获取结果。考虑到之后这部分数据可能会频繁使用,我就直接导出成文件了。

2.分词用的是百度的自然语言处理API接口,主要是想用它的词性分析功能。如果想简单点,可以用一些分词的在线工具,对每个企业的经营范围依次进行分词。但是如果样本企业过多,可能会比较费事

import time

from aip import AipNlp
import pandas as pd

''' 创建API的client '''

APP_ID = '24037821'  # 替换成自己的
API_KEY = 'gSH3nPHazXwsjGtZHdqQxRaR'  # 替换成自己的
SECRET_KEY = '3SOC3G45LSXwmKeyZsdgQZ9uMySQrbHL'  # 替换成自己的

client = AipNlp(APP_ID, API_KEY, SECRET_KEY)
client.setConnectionTimeoutInMillis(3600)

sample_enter 
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值