大数据分析与挖掘-Part1-绪论

最新推荐文章于 2024-07-11 16:34:57 发布

IncWu

最新推荐文章于 2024-07-11 16:34:57 发布

阅读量177

点赞数

分类专栏：数据挖掘文章标签：数据挖掘大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/IncWu/article/details/118469893

版权

数据挖掘专栏收录该内容

2 篇文章 0 订阅

订阅专栏

大数据分析与挖掘-Part1-绪论

大数据基本特征（4V）

Volume 数据体量大
Variety 数据多样性，且多为非结果型数据
Value 价值密度低
Velocity 速度快，实时性高，对于高速动态数据流，处理数据越即时，产生的价值越大

（大）数据挖掘概念

从大量数据中抽取出有价值的信息和模式的过程

数据挖掘一般流程

数据集选取

一般数据集是已经存在的或者至少知道如何获得的(访问某个资料库，网上过滤抓取需要的数据，问卷调查手动收集等)。数据集的选取对数据挖掘模式是否有趣起决定作用。常用的数据集网站是UCI：https://archive.ics.uci.edu/ml/datasets/

数据预处理

为什么要进行数据预处理？

初试数据集的准备和变换是数据挖掘过程中重要的步骤。

包含大量不完整，含噪声和不一致的数据是大数据应用中的典型特点。

数据的预处理能有效提高数据质量，节约大量的时间和空间。

大部分数据挖掘算法对输入数据的格式，质量以及规模有一定的要求。

常用数据处理方法

数据预处理目的是提高数据质量：准确性、完整性和一致性，方法包括数据清理、数据集成、数据规约和数据变换方法。

在这里插入图片描述

数据分析（挖掘）

常用方法有：

关联规则挖掘：用于发现隐藏在大型数据集中令人感兴趣的联系，所发现的模式通常用关联规则或者频繁项集的形式表示。
分类与预测：事先利用已有数据建立数学模型，再使用数据模型对将来的或未知的对象进行分类。
聚类分析：是一种无指导的分类，将一组数据对象划分为若干个簇，簇内数据是相似的，簇间的数据是相异的。
异常点检测

获取数据模式，将其评估与表示为知识

，簇间的数据是相异的。

异常点检测

获取数据模式，将其评估与表示为知识

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
大数据分析与挖掘-Part1-绪论

大数据分析与挖掘-Part1-绪论大数据基本特征（4V）Volume 数据体量大Variety 数据多样性，且多为非结果型数据Value 价值密度低Velocity 速度快，实时性高，对于高速动态数据流，处理数据越即时，产生的价值越大（大）数据挖掘概念从大量数据中抽取出有价值的信息和模式的过程数据挖掘一般流程数据集选取一般数据集是已经存在的或者至少知道如何获得的(访问某个资料库，网上过滤抓取需要的数据，问卷调查手动收集等)。数据集的选取对数据挖掘模式是否有趣起决定
复制链接

扫一扫

专栏目录

IncWu CSDN认证博客专家 CSDN认证企业博客

码龄5年

2: 原创

125万+: 周排名

194万+: 总排名

2065: 访问

: 等级

21: 积分

0: 粉丝

0: 获赞

0: 评论

10: 收藏

私信

关注

热门文章

分类专栏

数据挖掘 2篇

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

大数据分析与挖掘-Part2-数据预处理

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。