数据挖掘方向

数据挖掘需要具备基础知识  

1.数据挖掘从业人员的愿景:
数据挖掘就业的途径从我看来有以下几种,(注意:本文所说的数据挖掘不包括数据仓库或数据库管理员的角色)。
A:做科研(在高校、科研单位以及大型企业,主要研究算法、应用等)
B:做程序开发设计(在企业做数据挖掘及其相关程序算法的实现等)
C:数据分析师(在存在海量数据的企事业单位做咨询、分析等)

2.数据挖掘从业人员切入点:
根据上面的从业方向倒序并延伸来说说需要掌握的技能。
C,数据分析师:需要有深厚的数理统计基础,可以不知道人工智能和计算机编程等相关技术,但是需要熟练使用主流的数据挖掘(或统计分析)工具 。从这个方面切入数据挖掘领域的话你需要学习《数理统计》、《概率论》、《统计学习基础:数据挖掘、推理与预测 》、《金融数据挖掘》,《业务建模与数据挖掘》、《数据挖掘实践 》等,当然也少不了你使用的工具的对应说明书了,如SPSS、SAS等厂商的《SAS数据挖掘与分析》、《数据挖掘Clementine应用实务 》、《EXCEL 2007数据挖掘完全手册》等,如果多看一些如《中文版 数据挖掘原理》 等书籍那就更好了。
B,程序设计开发:主要是实现数据挖掘现有的算法和研发新的算法以及根据实际需要结合核心算法做一些程序开发实现工作。要想扮演好这个角色,你不但需要熟悉至少一门编程语言如(C,C++,Java,Delphi等)和数据库原理和操作,对数据挖掘基础课程有所了解,读过《数据挖掘概念与技术》(韩家炜著)、《人工智能及其应用》。有一点了解以后,如果对程序比较熟悉的话并且时间允许,可以寻找一些开源的数据挖掘软件研究分析,也可以参考如《数据挖掘:实用机器学习技术及Java实现》等一些教程。
A.做科研:这里的科研相对来说比较概括,属于技术型的相对高级级别,也是B,C的归宿,那么相应的也就需要对B、C的必备基础知识了。

可能之后不会续写一篇《数据挖掘进阶》了,这边大概说一下B和C的进一步要求:
B当前主要包括如下方向:企业数据挖掘、Web数据挖掘、空间数据挖掘、多媒体数据挖掘等等;
C当前主要应用于:电信CRM、金融、咨询业等等;
最后说一下大家有必要熟悉数据挖掘工具:Google ,或许你也可以搜索到这篇文章,当然也可以搜索到人才招聘的相关职位需求以及其他资料,一如你当初搜索到 DMResearch 一样。

磨刀不误砍柴工。在学习数据挖掘之前应该明白几点:

·        数据挖掘目前在中国的尚未流行开,犹如屠龙之技。

·        数据初期的准备通常占整个数据挖掘项目工作量的70%左右。

·        数据挖掘本身融合了统计学、数据库和机器学习等学科,并不是新的技术。

·        数据挖掘技术更适合业务人员学习(相比技术人员学习业务来的更高效)

·        数据挖掘适用于传统的BI(报表、OLAP等)无法支持的领域。

·        数据挖掘项目通常需要重复一些毫无技术含量的工作。


如果你阅读了以上内容觉得可以接受,那么继续往下看。

学习一门技术要和行业靠拢,没有行业背景的技术如空中楼阁。技术尤其是计算机领域的技术发展是宽泛且快速更替的(十年前做网页设计都能成立公司),一般人没有这个精力和时间全方位的掌握所有技术细节。但是技术在结合行业之后就能够独当一面了,一方面有利于抓住用户痛点和刚性需求,另一方面能够累计行业经验,使用互联网思维跨界让你更容易取得成功。不要在学习技术时想要面面俱到,这样会失去你的核心竞争力。

一、目前国内的数据挖掘人员工作领域大致可分为三类。

·        1)数据分析师:在拥有行业数据的电商、金融、电信、咨询等行业里做业务咨询,商务智能,出分析报告。

·        2)数据挖掘工程师:在多媒体、电商、搜索、社交等大数据相关行业里做机器学习算法实现和分析。

·        3)科学研究方向:在高校、科研单位、企业研究院等高大上科研机构研究新算法效率改进及未来应用。


二、说说各工作领域需要掌握的技能。
(1).数据分析师

·        需要有深厚的数理统计基础,但是对程序开发能力不做要求。

·        需要熟练使用主流的数据挖掘(或统计分析)工具如BusinessAnalytics and Business Intelligence Software(SAS)、SPSS、EXCEL等。

·        需要对与所在行业有关的一切核心数据有深入的理解,以及一定的数据敏感性培养。

·        经典图书推荐:《概率论与数理统计》、《统计学》推荐DavidFreedman版、《业务建模与数据挖掘》、《数据挖掘导论》、《SAS编程与数据挖掘商业案例》、《Clementine数据挖掘方法及应用 》、《Excel2007 VBA参考大全》、《IBM SPSS Statistics 19 StatisticalProcedures Companion》等。

(2).数据挖掘工程师

·        需要理解主流机器学习算法的原理和应用。

·        需要熟悉至少一门编程语言如(Python、C、C++、Java、Delphi等)。

·        需要理解数据库原理,能够熟练操作至少一种数据库(Mysql、SQL、DB2、Oracle等),能够明白MapReduce的原理操作以及熟练使用Hadoop系列工具更好。

·        经典图书推荐:《数据挖掘概念与技术》、《机器学习实战》、《人工智能及其应用》、《数据库系统概论》、《算法导论》、《Web数据挖掘》、《Python标准库》、《thinking in Java》、《Thinkingin C++》、《数据结构》等。

(3).科学研究方向

·        需要深入学习数据挖掘的理论基础,包括关联规则挖掘 (Apriori和FPTree)、分类算法(C4.5、KNN、LogisticRegression、SVM等) 、聚类算法 (Kmeans、SpectralClustering)。目标可以先吃透数据挖掘10大算法各自的使用情况和优缺点。

·        相对SAS、SPSS来说R语言更适合科研人员The R Projectfor Statistical Computing,因为R软件是完全免费的,而且开放的社区环境提供多种附加工具包支持,更适合进行统计计算分析研究。虽然目前在国内流行度不高,但是强烈推荐。

·        可以尝试改进一些主流算法使其更加快速高效,例如实现Hadoop平台下的SVM云算法调用平台--web 工程调用hadoop集群

·        需要广而深的阅读世界著名会议论文跟踪热点技术。如KDDICMLIJCAIAssociation forthe Advancement of Artificial IntelligenceICDM等等;还有数据挖掘相关领域期刊:ACM Transactionson Knowledge Discovery from DataIEEETransactions on Knowledge and Data EngineeringJournal of Machine LearningResearch HomepageIEEEXplore: Pattern Analysis and Machine Intelligence, IEEE Transactions on等。

·        可以尝试参加数据挖掘比赛培养全方面解决实际问题的能力。如Sig KDDKaggle: Go fromBig Data to Big Analytics等。

·        可以尝试为一些开源项目贡献自己的代码,比如Apache Mahout:Scalable machine learning and data mining ,myrrix等(具体可以在SourceForgeGitHub.上发现更多好玩的项目)。

·        经典图书推荐:《机器学习》 《模式分类》《统计学习理论的本质》《统计学习方法》《数据挖掘实用机器学习技术》《R语言实践》,英文素质是科研人才必备的《MachineLearning: A Probabilistic Perspective》《Scalingup Machine Learning : Parallel and Distributed Approaches》《DataMining Using SAS Enterprise Miner : A Case Study Approach》《Pythonfor Data Analysis》等。

三数据挖掘路途

人一能之,己十之;人十能之,己千之。果能此道矣,虽愚,必明;虽柔,必强。

 

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值