数据挖掘
never1987
这个作者很懒,什么都没留下…
展开
-
数据挖掘-公司别名聚合(四)
接下来开始原创 2014-10-09 22:09:41 · 1053 阅读 · 0 评论 -
数据挖掘-公司别名聚合(三)
确定了从名称本身出发不靠谱,需要引入其他特征值,但是引入什么好呢?前面说过了,我的公司名称来源是用户手动填写的,并且用户量巨大,所以最先被引入的变量就是人。设想两个人,一个所填公司是“华为公司”,另一个是“华为科技有限公司”,我们不知道这两个是不是一个公司,但是如果我们知道了这两个人工作时间的ip在一个ip段,且工作时间地理位置重合,且社交网络中得好友关系重合度高,我们是不是可以高度怀疑这原创 2014-09-29 11:26:51 · 1199 阅读 · 0 评论 -
数据挖掘-公司别名聚合(二)
接下来一段时间依然没有放弃从文本本身出发,阅读了大量字符串原创 2014-09-28 20:14:44 · 1420 阅读 · 0 评论 -
数据挖掘-公司别名聚合(五)
前面说的关系链是原创 2014-10-10 22:36:39 · 924 阅读 · 0 评论 -
数据挖掘-公司别名聚合(一)
工作3年终于开始写点东西了,既然是第一篇就写点自己yin原创 2014-09-28 19:31:36 · 2076 阅读 · 0 评论