数据挖掘是从庞大的数据源中提取有效信息,并将该信息转换为潜在有用且最终易于理解的模式,以供进一步使用。正如 Wikipedia 所解释的,它不仅包括数据处理和管理,而且还涉及机器学习,统计和数据库系统的智能方法。
数据挖掘也是数据科学领域中最重要的技术,在2016年至2018年Glassdoor的“美国50最佳工作”列表中,数据挖掘排名第一。 此外,与2016年的1700个职位空缺相比,这两年内列出的职位空缺数量明显增加了160%。
为了帮助大家掌握数据科学技术,我们之前出版了80本值得一读的最佳数据科学书籍和88种成为数据科学家的资源和工具。 因此,在本文我将专注于数据挖掘领域,并总结10个您需要的基本技能。
计算机科学技能
1. 编程/统计语言:R,Python,C ++,Java,Matlab,SQL,SAS,shell / awk / sed…
数据挖掘在很大程度上依赖于编程,但现在尚无定论哪个才是数据挖掘的最佳语言。这完全取决于您处理的数据源。彼得·格里森(Peter Gleeson)提出了四个频谱供您选择哪种编程语言:特异性,通用性,生产率和性能,可以将它们视为一对轴(特异性-通用性,性能-生产率)。 大多数语言都有利有弊。根据KD Nuggets的研究,R和Pyt