大数据系统与大规模数据分析 课程
bakalaka
时间是最好的朋友
展开
-
数据存储:关系型数据管理系统1
本文转载自:http://www.cnblogs.com/gardenofsjw/p/6917495.html关系型数据管理系统1:SQL概念与操作目录一、几个定义注意点二、SQL操作语句备忘录三、补充SQL约束(本文是中科院陈世敏老师课程学习笔记) -----------------------------------------一、几个定义注意点1.Scheme 对表格每一列的类型声明,只需定...转载 2018-06-13 09:28:31 · 1597 阅读 · 0 评论 -
数据挖掘:降维
为什么要降维?找出规律,压缩数据量。特征值与特征向量M矩阵,λ常数,e非零列向量Me = λe (e为unit vector,第一个非零元素为正)特征向量是单位向量;特征向量之间正交;特征向量矩阵E的特点,E*E^T = E^T*E = I。一、PCA(主成分分析)利用特征向量进行降维。原理:将矩阵与一个正交单位向量矩阵相乘,意味着在欧式空间上的旋转。求MM^T或者M^T的特征矩阵E,对高维数据进...转载 2018-06-15 15:49:43 · 1558 阅读 · 0 评论 -
数据挖掘:推荐系统
本文转载自:http://www.cnblogs.com/python27/p/MachineLearningWeek09.html电影推荐系统问题:根据用户对已看过电影的打分,对用户未看过的电影(下表中以?表示)进行打分估计,以给其推荐合适的电影。符号说明:nunu表示用户数量nmnm表示电影数量r(i,j)r(i,j)是符号变量,如果用户jj已经对电影ii进行评分则r(i,j)=1r(i,j)...转载 2018-06-15 15:42:41 · 3089 阅读 · 0 评论 -
数据挖掘:相似性度量、LSH算法
本文转载自:https://blog.csdn.net/u013710265/article/details/71698121在数据挖掘中经常需要用到比较两个东西的相似度。下面先主要说一下文档的相似度。 如果是判断两个文档是否完全相同,问题就变得很简单,只要简单地逐字符比较即可。但是在很多情况下并不是这样,比如网站文章的转载,主体内容部分是相同的,但是不同网页本身有自己的Logo、导航栏、版权声明...转载 2018-06-15 15:29:00 · 1739 阅读 · 0 评论 -
数据挖掘:分布式哈希表(DHT)
本文转载自:http://colobu.com/2018/03/26/distributed-hash-table/ https://blog.csdn.net/miaoqiucheng/article/details/53039259(第一部分:http://colobu.com/2018/03/26/distributed-hash-table/)1、哈希...转载 2018-06-15 15:00:39 · 10741 阅读 · 1 评论 -
数据存储:大数据存储系统(4)--- 图存储系统(Graph Database)
本文转载自:https://blog.csdn.net/u013710265/article/details/72802802一、图数据模型(1)图的概念G=(V,E):V为顶点的集合,E为边的集合。有向图:边有方向无向图:边没有方向;可以用有向图表达无向图:每条无向边->2条有向边。(2)图数据存储系统存储图顶点和边,提供顶点和边的查询。二、Neo4j(1)概念Native graph d...转载 2018-06-15 14:37:43 · 618 阅读 · 0 评论 -
数据存储:大数据运算系统(3)--- MapReduce+SQL
本文转载自:https://blog.csdn.net/u013710265/article/details/715169281、MapReduce+SQL系统介绍MapReduce提供了一个分布式应用编写的平台。但是,这仅仅是一个编程的平台,不适合数据分析师的使用;即使最基础的选择和投影操作,也必须写程序来实现。所以,对SQL的需求由此产生。2、Hive(蜂巢)管理和处理结构化数据;在Hadoo...转载 2018-06-15 14:34:38 · 257 阅读 · 0 评论 -
数据存储:大数据运算系统(2)--- 图计算系统
本文转载自:http://www.cnblogs.com/gardenofsjw/p/6923014.html目录一、同步图计算1.图算法2.同步图计算3.系统实现二、异步图计算1.数据模型2.计算过程(本文为陈世敏老师课程笔记)-------------------------------------------同步图运算:消息传递异步图运算:共享内存,可以立即看到完成的计算结果一、同步图计算1...转载 2018-06-15 14:32:45 · 1178 阅读 · 0 评论 -
数据储存:大数据运算系统(1)--- MapReduce
本文转载自:https://blog.csdn.net/u013710265/article/details/70173248一、MapReduce/Hadoop简介:MapReduce是目前云计算中最广泛使用的计算模型,由Google提出。Hadoop是MapReduce的一个开源实现。1、编程模型(1)整体思路程序员写串行程序。由系统完成并行分布式执行。程序员保证串行程序的正确性,系统负责并行...转载 2018-06-13 10:11:20 · 507 阅读 · 0 评论 -
数据存储:大数据存储系统(5)--- ZooKeeper
本文转载自:https://blog.csdn.net/u013710265/article/details/72818735Distrubuted Coordination:ZooKeeper1、概念用于分布式系统中,多个节点协调。Leadership election:选举一个代表负责节点Group membership:哪些节点还活着?发现崩溃等故障Consensus:对一个决策达成一致Zo...转载 2018-06-13 10:10:01 · 385 阅读 · 0 评论 -
数据存储:大数据存储系统(4)--- 图存储系统(Graph Database)
本文转载自:https://blog.csdn.net/u013710265/article/details/72802802 http://www.cnblogs.com/gardenofsjw/p/6921212.html 一、图数据模型(1)图的概念G=(V,E):V为顶点的集合,E为边的集合。有向图:边有方向无向图:边没有方向;可以用有向图表达无向图:每条无向边-&...转载 2018-06-13 10:05:22 · 6044 阅读 · 0 评论 -
数据存储:大数据存储系统(3)--- Document Store
本文转载自:https://blog.csdn.net/u013710265/article/details/72802638Document Store一、数据模型1、JSON:JavaScript Object NotationJSON是一个低成本的数据交换格式;是JavaScript程序语言标准(1993年)的子集。JSON对应于程序语言中的结构与数组。(1)JSON格式定义Value:基础...转载 2018-06-13 09:57:39 · 1014 阅读 · 0 评论 -
数据存储:大数据存储系统(2)--- Key-Value Store
本文转载自:https://blog.csdn.net/u013710265/article/details/72801117No-SQL:(1)这些系统大部分是由互联网公司研发,研发目标是支持某公司的某类重要的应用。(2)放弃使用关系型系统,转而开发专门的系统以支持目标应用。(3)针对目标应用进行开发,简化了许多关系型系统的功能,以提高系统性能和降低研发成本。不支持完全的SQL,不支持完全的AC...转载 2018-06-13 09:55:01 · 1106 阅读 · 0 评论 -
数据存储:大数据存储系统(1)--- 分布式文件系统
本文转载自:https://blog.csdn.net/u013710265/article/details/72798348分布式文件系统一、分布式系统概念(1)分布式系统类型:Client/Server、P2P(Peer-to-Peer)、Master/Worker(2)故障模型(Failure Model):Fail stop:出现故障时,进程停止/崩溃Fail slow:出现故障时,运行速...转载 2018-06-13 09:52:51 · 4077 阅读 · 0 评论 -
数据存储:关系型数据管理系统3
本文转载自:http://www.cnblogs.com/gardenofsjw/p/6918655.html关系型数据管理系统3:事务处理、数据仓库、分布式数据库目录一、事务处理1.ACID2.Concurrency Control并发控制3.Crash Recovery 崩溃恢复保证Durability二、数据仓库1.OLPA2.行式与列式数据库三、分布式数据库(本文是中科院陈世敏老师课程学习...转载 2018-06-13 09:42:22 · 388 阅读 · 0 评论 -
数据存储:关系型数据管理系统2
本文转载自:http://www.cnblogs.com/gardenofsjw/p/6917599.html关系型数据管理系统2:数据库系统与数据存储访问目录一、数据库系统架构二、数据存储与访问1.数据库与文件系统对比总结2.存储单位 2.1 硬盘 2.2 文件系统 2.3 RDSBM3.访问策略 3.1 顺序访问 3.2 Indexing 3.3 Buffer Pool 3.4 ...转载 2018-06-13 09:35:58 · 919 阅读 · 0 评论 -
数据挖掘:大数据流处理
本文转载自:https://blog.csdn.net/viewcode/article/details/9088467大数据流 即 实时收集的大量的数据。数据的流量大到无法实时将全部数据放入分析工具中处理。这里写写要解决的问题,及问题解决的思路,若是真的去实现,则需要考虑更多的问题、因素,需要查询更更详尽的资料。常见的数据流问题:1. 数据流的查询有哪些类型?有哪些处理策略?2. 对大数据流进行...转载 2018-06-15 16:14:58 · 2487 阅读 · 0 评论