- 博客(5)
- 收藏
- 关注
原创 数据挖掘-公司别名聚合(三)
确定了从名称本身出发不靠谱,需要引入其他特征值,但是引入什么好呢?前面说过了,我的公司名称来源是用户手动填写的,并且用户量巨大,所以最先被引入的变量就是人。设想两个人,一个所填公司是“华为公司”,另一个是“华为科技有限公司”,我们不知道这两个是不是一个公司,但是如果我们知道了这两个人工作时间的ip在一个ip段,且工作时间地理位置重合,且社交网络中得好友关系重合度高,我们是不是可以高度怀疑这
2014-09-29 11:26:51 1204
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人