数据挖掘-公司别名聚合(一)

最新推荐文章于 2021-07-13 13:51:35 发布

never1987

最新推荐文章于 2021-07-13 13:51:35 发布

阅读量2k

点赞数

分类专栏：数据挖掘文章标签：大数据数据挖掘文本分析 TFIDF 别名聚合

本文链接：https://blog.csdn.net/never1987/article/details/39638737

版权

本文讲述了作者从后端开发转行数据挖掘，首次接触公司别名聚合任务的经历。通过使用TFIDF进行关键词提取，针对大量UGC数据进行建模和分类，尝试解决如何识别“百度”与“百度烤肉”等是否属于同一公司的难题。虽然初始模型准确率为85%，召回率60%，但经过优化，最终提高了准确率。文章探讨了在机器无法像人类那样理解语义时，如何利用TFIDF等技术进行初步筛选的问题。

摘要由CSDN通过智能技术生成

03年10月份我由于个人兴趣原因从后端开发转数据挖掘，接手的第一个活是“公司别名聚合”，初期一头雾水，不知从何处下手，2个月以后才建出第一个模型，准确率85%以上，召回率比较惨只有60%不到，后来准确率优化到90%以上。接下来讲讲具体的过程。（由于数据敏感性，文章中不会暴露数据源，只能说我使用的的数据都是UGC，且数据量巨大）。

目的：通过程序区分用户所填写的“百度”，“百度烤肉”，“华为公司”，“华为技术有限公司”这样的公司名称是不是属于同一个公司。

手段：数据挖掘、建模、分类、人工筛选。

数据源：用户手动输