作者: PALAK11
翻译:王闯 (Chuck)
校对:陈 丹
本文约1700字,建议阅读5分钟
本文作者根据个人过往工作经验,整理出了处理非结构化数据的7个实例,希望能对读者处理相关实际问题有所启发。
本文是作为数据科学博客松的一部分发表的。
介绍
我敢肯定,从事数据工作的人,不管数据量大小与否,都遇到过如下问题:数据不好,数据不一致,数据不干净,诸如此类。帮工作中鲜与数据打交道的人科普一下,根据《福布斯》的报告,数据专家60%的时间都花费在清理和整理非结构化数据上。是的,这花费了很多时间,但我认为这是得出结论的基础。
报告
https://www.forbes.com/sites/gilpress/2016/03/23/data-preparation-most-time-consuming-least-enjoyable-data-science-task-survey-says/?sh=4b394cc86f63
这里根据我近三年来处理非结构化数据的个人经验整理了7个实例。希望能为相关读者带来些许收获。
1.缺少唯一标识符
要联接两个或多个表&#