数据库1(数据挖掘。大数据的4V特性)

文章目录

    • 数据挖掘的概念
    • 数据挖掘的意义
    • 数据挖掘的对象
    • 数据挖掘的技术
    • 大数据的4V特性概念

数据挖掘的概念

简单来讲就是资料探勘数据采矿

数据挖掘一般指的是大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘是通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现的。

主要目标是从数据中挖取隐藏的信息。挖取的过程中会采用许多技术,包括运用一系列统计方法、模式识别、机器学习(归根结底都是统计方法啦)等等技术,来实现挖取隐藏信息的目的。

数据挖掘的意义

数据挖掘能获得大量数据,并可以广泛使用。获取的信息和知识可以广泛用于各种应用,包括商务管理,生产控制,市场分析,工程设计和科学探索等。
1.教育领域
数据挖掘技术的应用已经渗入到教育教学的各个方面,如支持教育科学决策、实施个性化教育、对学生的学业成绩进行评估等。数据挖掘的实际应用逐渐突破了传统的教学模式,改善了教学效果,促进了教学质量的提升。
  
2.风控领域
数据挖掘作为深层次的数据信息分析方法,能够对各种因素之间隐藏的内在联系进行全面分析。目前在风控领域可应用于信贷风险评估、交易欺诈识别、黑产防范及消费信贷四个方面,通过风险预警,可以让风险管理者提前做好准备,从而为决策提供参考信息。
  
3.医疗领域
目前,医院已经积累了涵盖患者、费用、药物以及相关管理信息等数据资源,数量庞大且类型复杂。数据挖掘技术则能够帮助医院从中提取出有价值的信息,满足医疗服务各个环节的需求。其在医疗成本的预测和控制、慢性疾病的预警、医疗信息质量管理等方面,都起到了明显的正向作用。

4.其他
数据挖掘技术还可能带来隐私披露、数据滥用等一系列问题,因此,必须规范数据挖掘技术的使用。同时,需要利用加密、访问控制和网络安全机制保护技术等技术手段来保护信息安全,以保证数据信息不被窃取、更改或秘密访问。

数据挖掘的对象



    **数据库数据**
    顾名思义,就是存储在数据库中的数据。这里面的数据库主要指关系型数据库。

    **数据仓库**
    数据仓库是从多个数据源收集汇总的一个数据存储库,跟事务型数据库的不同点在于它是面向主题的,有一定的分类和聚合。并且分为度量值和维度值即事实表和维度表这样的区分,便于多维数据分析(OLAP)。

    **事务数据**
    事务数据库的每个记录代表一个事务,就是我们常见的业务系统,订单系统。例如京东的一次购物就有一条购物信息的记录,这就是事务。

    **其他类型的数据**
    除了以上类型的数据之外的其他数据,包括时间相关或序列相关的数据、地理空间的数据、文本数据以及图片和音视频等。
    

数据挖掘的技术



    **统计学**
    研究数据的收集、分析、解释和表示。运用统计模型对数据建模、使用假设检验来验证模型等。
    
    **机器学习** 
    监督学习(supervised learning)
    基本上是分类的同义词。学习中的监督来自训练数据集中标记的实例。
    无监督学习(unsupervised learning)
    本质上是聚类的同义词。学习过程是无监督的,因为输入的实例没有类标记。
    半监督学习(semi-supervised learning)
    在学习模型时,使用标记的和未标记的实例。标记的模型用来学习类模型,未标记的实例用来进一步改进类边界。
    主动学习(active learning)
    让用户在学习过程中扮演主动角色,让用户对一个可能来自未标记的实例集或由学习程序合成的实例进行标记。给定要求标记数量的约束。目的是通过主动的从用户获取知识来提高模型质量。 

    **信息检索(IR)**
    是搜索文档或文档中信息的科学。假定搜索的数据是无结构的,主要采用关键词。 




大数据的4V特性概念

简单来说大数据的4V,就是“容量大Volume”“多样性Variety”“价值高Value”“速度快Velocity”。
在这里插入图片描述
(数据量)大这是一方面,也有数据量不大但是具有高度的(多样性和复杂性)从而能衍生出有(高度可分析价值的数据)都是大数据,还有就是(速度)能够快速分析出结果并且加以多方位价值利用也是大数据的衡量标准之一。

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
假设你要从MySQL数据库中提取数据到Hadoop平台,可以使用以下Java代码: ```java import java.sql.Connection; import java.sql.DriverManager; import java.sql.ResultSet; import java.sql.SQLException; import java.sql.Statement; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.SequenceFile; import org.apache.hadoop.io.Text; public class MySQLToHadoop { // MySQL数据库连接信息 private static final String MYSQL_URL = "jdbc:mysql://localhost:3306/mydb"; private static final String MYSQL_USER = "username"; private static final String MYSQL_PASSWORD = "password"; // HDFS存储路径 private static final String HDFS_PATH = "hdfs://localhost:9000/user/hadoop/data"; public static void main(String[] args) throws Exception { // 连接MySQL数据库 Connection conn = DriverManager.getConnection(MYSQL_URL, MYSQL_USER, MYSQL_PASSWORD); // 查询数据 Statement stmt = conn.createStatement(); ResultSet rs = stmt.executeQuery("SELECT * FROM mytable"); // 定义Hadoop文件系统 Configuration conf = new Configuration(); FileSystem fs = FileSystem.get(conf); // 创建SequenceFile输出流 Path outputPath = new Path(HDFS_PATH + "/data.seq"); Text key = new Text(); Text value = new Text(); SequenceFile.Writer writer = SequenceFile.createWriter(fs, conf, outputPath, key.getClass(), value.getClass()); // 遍历ResultSet并写入SequenceFile while (rs.next()) { key.set(rs.getString("id")); value.set(rs.getString("data")); writer.append(key, value); } // 关闭输出流和ResultSet writer.close(); rs.close(); stmt.close(); conn.close(); } } ``` 这段代码使用JDBC连接MySQL数据库,并执行一个SELECT语句来查询数据。然后,它使用Hadoop的SequenceFile格式将数据写入HDFS中。你需要将代码中的MySQL连接信息和HDFS存储路径替换为你自己的。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

M10++

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值