大数据寒假学习笔记
小鱼编程
越努力,越幸运
展开
-
大数据常见专有名词解释
0.HbaseHbase和hive的区别共同点:1.hbase与hive都是架构在hadoop之上的。都是用hadoop作为底层存储区别:2.Hive是建立在Hadoop之上为了减少MapReduce jobs编写工作的批处理系统,HBase是为了支持弥补Hadoop对实时操作的缺陷的项目 。3.想象你在操作RMDB数据库,如果是全表扫描,就用Hive+Hadoop,如果是索引访问,就用HBase+Hadoop 。4.Hive query就是MapReduce jobs可以从5分钟到数小时不止原创 2021-01-21 22:36:54 · 2309 阅读 · 0 评论 -
Hadoop计算架构(集群,HDFS,HBase)
几种常见的计算模型Hadoop计算架构集群HDFSHBase原创 2021-01-21 20:54:37 · 134 阅读 · 0 评论 -
分布式并行计算模型
1.并行计算模型主要考虑多指令流多数据流(MIMD)原创 2021-01-20 19:01:11 · 459 阅读 · 0 评论 -
数据的分析与预处理
1.连接数据库读取数据import MySQLdbdb =mysql.connect("localhost","root","12345678","student")cursor=db.cursor()##插入数据sql="""insert into student("chen",20,"anhui")"""##取出数据库里的数据打印出来datas=cursor.fetchall()for data in datas: print(data[1])print(cursor.rowc原创 2021-01-18 23:22:26 · 145 阅读 · 0 评论 -
数据分析的常见算法
十大数据分析算法1.C4.5(分类决策树)决策树算法需要解决的两个主要问题:1)先选择哪个属性,后选择哪个属性来进行分裂?2)什么时候树停止生长?这里,C4.5算法是这样解决的:1)用信息增益(熵差)率来选择属性分裂;2)构造树的过程中进行剪枝操作降低过拟合风险。这里引出“信息熵”的概念。“熵”是对混乱程度的度量,越乱熵越大,是一个度量样本集合纯度最常用的指标。划分节点处到底用哪个属性的时候,希望节点处属性纯度大,也就是熵更小。2.K-均值算法3.SVM4.Apriori算法衡原创 2021-01-18 10:50:38 · 8567 阅读 · 0 评论 -
大数据计算系统学习笔记
1.大数据计算体系可归纳三个基本层次:数据应用系统,数据处理系统,数据存储系统2.计算的总体架构HDFS(Hadoop 分布式文件系统)(1)设计思想:分而治之,将大文件大批量文件,分布式存放在大量服务器上,以便于采取分而治之的方式对海量数据进行运算分析。(2)首先,它是一个文件系统,用于存储文件,通过统一的命名空间–目录树来定位文件。然后,它是分布式的,又很多服务器联合起来实现其功能,集群中的服务器有各自的角色。有namenode和datanode两部分,有点类似索引结构,并采用备份的方原创 2021-01-17 14:13:22 · 3239 阅读 · 6 评论