(1)Introduction

数据挖掘Intro

       背景

       It行业的发展使得数据的体量越来越大,我们希望从这些数据中提取出有用的信息。面对这些规模巨大而且本身属性不太传统的数据,传统的数据分析工具表示无能为力。于是乎,挑战带来了机遇,数据挖掘抓住了这个机会,直面了挑战,并在实战中证明了自己。

       数据挖掘是啥玩意儿

       数据挖掘是一个在大量数据中自动发掘有用信息的过程。这些有用信息通常是藏得很深的,不用点奇淫技巧一般难以发现。那数据挖掘就是致力于去寻找这些隐藏的数据模式的一些方法。骚等一下,这样看起来是不是我用baidu或者Google搜索也算在搞数据挖掘嘞?看起来好像是,不过这要归于另一个领域,信息检索(Information Retrieval)。当然咯,搜索引擎或者信息检索系统可以通过数据挖掘的方法来优化...

       数据挖掘的过程

       事实上数据挖掘是知识发现过程中的一部分,那么数据挖掘是怎样来发现知识的嘞?先看下大概的流程图:


       一般我们最初获得的数据是粗糙的,不规整的,在将数据提交给数据挖掘算法前要做些预处理,例如特征选取,减少维度等...所谓“好的数据胜过好的算法”,也就是说如果提供给算法是数据是很烂的(例如有很多噪声),那再好的算法也没法获得令人满意的结果。要得到好的数据,一方面可以改进原始数据收集的过程,另一方面则要进行合理的数据预处理。可见数据预处理是灰常重要的,同时也是很费时费力的。

       通过数据挖掘算法处理后,我们从数据得到了信息,而要进一步理解这些信息,就需要做后处理。后处理就是将挖掘到的信息解释,得到一些不懂技术不懂数据的领导也能看明白的结果。于是乎领导就能据此拍脑袋,做决策... 后处理的过程中,模式过滤确保只有那些合理且有用的数据模式被保留,可视化和解释就是为了更直观地理解和呈现信息。

       数据挖掘的分类

       预测模型

       预测就是要通过数据的一些推测另一些属性。被用于预测的这些数据(属性)是自变量(Independent Variables),而被预测的属性就是因变量了。根据因变量是连续的还是离散的,可以把预测分为两类。若要预测的因变量是连续变量,通常称为回归问题,而如果因变量离散的,就称为分类问题了...应该说这俩类的界线并不很明确,比如一个分类问题,但是一直要划分的类别很多很多很多,多着多着变成了回归问题了。另外Logistics回归是用来做分类问题的...

       关联规则分析

       关联规则通常用属性的子集来表示。子集的数量是指数增长的,那就要想办法在可接受的时间复杂度内找到最有用的模式。关联规则在推荐系统,基因组分析等方面很实用。

       聚类分析

       聚类分析要找到一种对数据分组的模式,使得同一组的数据尽可能更相似,而不同组之间的数据尽可能不相似。

       异常检查

       异常检查致力于寻找那些异常的数据记录,英文叫anomalies或者outliers,就是那些不合群的孩子...可用于信用卡欺诈,网络入侵等的检测。

 

 

《R语言chap-1 introduction to R 中文版注释》是一本介绍R语言的书籍,旨在帮助读者了解R语言的基础知识和概念。 该书第一章主要介绍了R语言的概述和安装方法。R语言是一种用于数据分析和统计建模的开源编程语言,在科研、数据科学和商业领域广泛应用。通过它,用户可以对数据进行处理、可视化、统计分析和机器学习等操作。 该章节首先介绍了R语言的特点和优势,如开源、跨平台、扩展性强等。其次,详细说明了R语言的安装步骤,包括下载R软件包、安装R软件、配置环境等。同时,还提供了一些常见的R语言安装问题和解决方法。 该章还介绍了R语言的基本使用方法。包括了R语言的命令行界面和集成开发环境(IDE)的使用,如RStudio等。同时,还介绍了R语言的常用数据类型,如向量、列表、矩阵、数据框等,以及关于变量的命名规则和数据的存储和读取方法。 最后,该章节还介绍了R语言的帮助系统和学习资源。R语言具有丰富的帮助文档和在线资源,用户可以通过help命令、?命令以及R语言社区等方式获取帮助和提升自己的技能。 总之,《R语言chap-1 introduction to R 中文版注释》这本书可以帮助读者从零开始学习R语言,并建立起对R语言的基本理解和操作能力。无论是初学者还是有一定经验的用户,都可以从中获得实用的知识和技巧,提升自己的数据分析和统计建模能力。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值