数据相关知识分享

数据库发展关系性数据库(RDBMS)商业Oracle,微软SQLServer,免费MySQL。接下来,随着互联网的不断普及特别是移动互联网的兴起,数据规模爆炸式增长,而硬件这些年的进步速度却在逐渐减慢,人们也在担心摩尔定律会失效。在此消彼长的情况下,单机数据库越来越难以满足用户需求。非关系数据库(NoSQL)典型例如:Redis和HBaseNewSQL2012 ~ 2013 年 Google相继发表了 Spanner 和 F1 两套系统的论文,让业界第一次看到了关系模型
摘要由CSDN通过智能技术生成

数据库

发展
  1. 关系性数据库(RDBMS)

商业Oracle,微软SQLServer,免费MySQL。

接下来,随着互联网的不断普及特别是移动互联网的兴起,数据规模爆炸式增长,而硬件这些年的进步速度却在逐渐减慢,人们也在担心摩尔定律会失效。在此消彼长的情况下,单机数据库越来越难以满足用户需求。

  1. 非关系数据库(NoSQL)

典型例如:Redis和HBase

  1. NewSQL

2012 ~ 2013 年 Google相继发表了 Spanner 和 F1 两套系统的论文,让业界第一次看到了关系模型和 NoSQL 的扩展性在一个大规模生产系统上融合的可能性。

代表

除了甲骨文公司的 Oracle、MySQL 数据库之外,还有 AWS 的 Aurora 数据库等产品,

学院派:南大通用、武汉达梦、人大金仓;
互联网派:阿里巴巴的PolarDB、OceanBase、AnalyticDB,腾讯云的 TDSQL;
创业派:TiDB、巨杉数据库、优炫、万里开源、易鲸捷、热璞 HotDB、极数云舟 ArkDB、星环 KunDB、青云 RadonDB 等;
企业派:华为的 GaussDB 和 openGauss,中兴的GoldenDB,亚信 AntDB ;

总结

当前数据库分为关系型数据库和非关系型数据库。
关系型数据库:指采用了关系模型来组织数据的数据库。
关系模型指的就是二维表格模型,而一个关系型数据库就是由二维表及其之间的联系所组成的一个数据组织。
关系模型中常用的概念:
关系:一张二维表,每个关系都具有一个关系名,也就是表名
元组:二维表中的一行,在数据库中被称为记录
属性:二维表中的一列,在数据库中被称为字段
:属性的取值范围,也就是数据库中某一列的取值限制
关键字:一组可以唯一标识元组的属性,数据库中常称为主键,由一个或多个列组成
关系模式:指对关系的描述。其格式为:关系名(属性1,属性2, … … ,属性N),在数据库中成为表结构
关系型数据库的优点:

  1. 容易理解:二维表结构是非常贴近逻辑世界的一个概念,关系模型相对网状、层次等其他模型来说更容易理解。
  2. 使用方便:通用的SQL语言使得操作关系型数据库非常方便。
  3. 易于维护:丰富的完整性(实体完整性、参照完整性和用户定义的完整性)大大减低了数据冗余和数据不一致的概率。

关系数据库的缺点:

  1. 高并发读写需求:网站的用户并发非常高,往往达到每秒上万次读写请求,对于传统关系型数据库来说,硬盘I/O是一个很大的瓶颈。
  2. 海量数据的高效率读写:对于数据量巨大的网站来说,关系型数据库的查询效率非常低。

数据挖掘流程(个人总结)

数据挖掘的过程可以分成以下 6 个步骤。

  • 业务理解:数据挖掘不是我们的目的,我们的目的是更好地帮助业务,所以第一步我们要从业务的角度理解项目需求,在这个基础上,再对数据挖掘的目标进行定义。
  • 数据理解: 尝试收集部分数据,然后对数据进行探索,包括数据描述、数据质量验证等。这有助于你对收集的数据有个初步的认知。
  • 数据准备:开始收集数据,并对数据进行清洗、数据集成等操作,完成数据挖掘前的准备工作。
  • 模型建立:选择和应用各种数据挖掘模型,并进行优化,以便得到更好的分类结果。
  • 模型评估:对模型进行评价,并检查构建模型的每个步骤,确认模型是否实现了预定的商业目标。
  • 上线发布:模型的作用是从数据中找到金矿,也就是我们所说的“知识”,获得的知识需要转化成用户可以使用的方式,呈现的形式可以是一份报告,也可以是实现一个比较复杂的、可重复的数据挖掘过程。
数据挖掘的十大算法

为了进行数据挖掘任务,数据科学家们提出了各种模型,在众多的数据挖掘模型中,国际权威的学术组织 ICDM (the IEEE International Conference on Data Mining)评选出了十大经典的算法。

  • 分类算法: C4.5,朴素贝叶斯(Naive Bayes),SVM,KNN,Adaboost,CART
  • 聚类算法: K-Means,EM
  • 关联分析: Apriori
  • 连接分析: PageRank

关系数据库(MySQL)

由于MySQL数据库是开源免费的,所以市场上使用MySQL或根绝MySQL进行打造适合自己的数据库厂家比比皆是。

关于MySQL的学习,个人总结:

基础:

对于数据库的查询是很重要的,可以具体到sql语句的编写。

  • sql语句(sql网络教程)和书籍《sql必知必会》、《sql进阶教程》
  • 表结构设计
调优:
  • 索引、慢查询优化
  • 配置参数调优
核心原理:
  • InnoDb存储引擎 (包括隔离级别、事务、锁、缓存池、回滚日志等等)
  • Mysqld (包括连接管理、进程管理、查询缓存、查询优化、日志等等)
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值