大数据
他乡觅知音
定位对于发展很重要,行进的路上需要纠偏。。。
展开
-
数据挖掘的概要粗解
能上图的时候,先直观上图解释。 1.数据清洗:消除噪声和删除不一致数据。 2.数据集成:多种类数据源组合在一起。 3.数据选择:从数据库中提取与分析任务相关的数据。 4.数据变换:通过汇总和聚集操作,把数据变换和统一成适合挖掘的过程。 5.数据挖掘:使用智能方法提取数据。 6.模式评估:根据兴趣度量,识别带有模式的模式。 7.知识表示:可视化及知识表示技术,将挖掘出的数据提供给用...原创 2018-02-09 09:49:51 · 204 阅读 · 0 评论 -
分布式CAP定理与BASE理论
一.CAP原则又称CAP定理,指的是在一个分布式系统中, Consistency(一致性)、 Availability(可用性)、Partition tolerance(分区容错性),三者不可得兼。它是NOSQL数据库的理论基石。 三个特性: 一致性(C):在分布式系统中的所有数据备份,在同一时刻是否同样的值。(等同于所有节点访问同一份最新的数据副本) 可用性(A):在集群中一部分节点故障后,集群...原创 2018-11-15 17:26:44 · 255 阅读 · 0 评论 -
Shared Nothing、Shared Everthting、Shared Disk
数据库构架设计中主要有Shared Everthting、Shared Nothing、和Shared Disk: 1.Shared Everything:一般是针对单个主机,完全透明共享CPU/MEMORY/IO,并行处理能力是最差的,典型的代表SQLServer以及一些用了单节点oracle、mysql等库的系统。以小微型,不需要考虑大并发业务的系统采用的居多。 2.Shared Nothin...原创 2018-11-20 11:35:56 · 1003 阅读 · 0 评论 -
云数据库架构的演进
现在业务上云,已经是一个很普遍的事情了,而目前传统业务上云的时候,大部分是先将非核心业务(包括数据库如oracle,mysql)迁上去;对应的核心业务,可能更多是是将WEB端迁上去,而库端还是用的物理机搭存储的集群模式如RAC。随着大数据,分布式技术的演进,政企部门,在下一代的服务架构转型要求下,需要基础软件和数据平台能够实现原生的云化,以满足更新的需求。 一个比较重要的思潮就是数据库(持久化)和...原创 2018-11-30 11:16:19 · 1035 阅读 · 0 评论 -
数据治理的流程
现在大家都很关注数据治理这个话题,本人在行业内也每天接触和实施的一些项目,下面把我的一些理解分享给大家。 数据源,一般都是OLTP业务系统生产累计下来的数据经过ETL工具进入到现在比较流行的分布式存储系统中(HDFS),然后通过现有的一些现有的机制如MapReduce或者Spark(基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点;但不同于MapRed...原创 2019-10-10 10:35:32 · 3143 阅读 · 0 评论