大数据
文章平均质量分 60
houxiaoqin
这个作者很懒,什么都没留下…
展开
-
hadoop学习笔记 MapReduce + HDFS
hadoop: map reduce+hdfs+hbaseMapReduce一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念“Map(映射)”和“Reduce(規約)”,和他們的主要思想,都是從函數式編程語言裡借來的,還有從矢量編程語言裡借來的特性。方便編程人員在不會分佈式並行編程的情況下,將自己的程序運行在分佈式系統上。當前的軟件實現是指定一個map映射函數,用來原创 2015-08-12 08:14:55 · 695 阅读 · 0 评论 -
大数据之数据挖掘理论笔记 聚类问题之K-means
大数据之数据挖掘理论笔记 聚类问题之K-means推荐参考博文: http://www.cnblogs.com/leoo2sk/archive/2010/09/20/k-means.html 推荐参考博文: http://blog.csdn.net/cyxlzzs/article/details/7416491 试过了,确实可运行。http://blog.csdn.net原创 2015-10-06 15:46:51 · 1688 阅读 · 0 评论 -
数据挖掘学习笔记——十大算法之决策树算法、逻辑回归概述
数据挖掘——分类分类:有监督的学习聚类:无监督的学习分类过程:使用类标签已知的样本去建立分类函数或分类模型,应用分类模型能把数据库中的类标签未知的数据进行归类。分类二阶段:分类是过程,预测(决策变量是类标签,此处为广义预测)是目的。分类算法:决策树、逻辑回归、神经网络、支持向量机、贝叶斯分类、KNN(K近邻)、随机森林。分类应用:流失预测原创 2015-08-17 01:54:56 · 7144 阅读 · 0 评论 -
hadoop学习笔记之HiveSQL DDL
Hive SQL1. Numeric Types: tinyint/smallint/int/bigint/float/double/decimal2. Date/Time Types: timestamp/date3. String Types: string/varchar/char4. Misc Types: boolean/binary5. Complex Ty原创 2015-08-13 00:46:23 · 506 阅读 · 0 评论 -
hadoop学习笔记之HiveSQL DML
DMLload data [local] inpath 'filepath' [overwrite] into table tablename [partition (partcol1=val1, partcol2=val2...)]insert overwrite table tablename1 [partition (partcol1=val1, partcol2=v原创 2015-08-13 08:34:37 · 475 阅读 · 0 评论 -
hadoop学习笔记 Hive执行生命周期
Hive内存存储格式 TextFile:默认数据不做压缩,磁盘开销大数据解析开销大,可用Stored as Textfile指定。SequenceFile:使用方便、可分割、可压缩,可供多个mapper并发读取。可使用stored as sequencefile指定。SequenceFile支持三种压缩选择:none,record,block.RCFile:列式存储方式,数据加原创 2015-08-13 10:39:10 · 1354 阅读 · 0 评论 -
hadoop学习笔记之HiveSQL 数据查询
数据查询select [all | distinct] select_expr, ...from table_reference[where where_condition][group by col_list][cluster by col_list] | [distribute by col_list] [sort by col_list][limit numb原创 2015-08-13 09:09:16 · 686 阅读 · 0 评论 -
hadoop学习笔记 HIVE
Hive是hadoop项目中的子项目,被视为一个数据仓库工具,可以将结构化的数据文件映射为一张数据表,并可以将SQL语句转换为MapReduce任务进行运行。优点:学习成本低,可以通过类SQL语句快速实现简单的MapReduce应用,十分适合数据仓库的统计分析。Hive进入hive的cli: hiveShow tables; Create table temp.itqs原创 2015-08-12 11:53:57 · 421 阅读 · 0 评论 -
hadoop学习笔记 Hive的cli与Commands
Hive的cli与CommandsHive:进入交互界面create database temp: 创建数据库hive-database temp: 默认是直接进行Default数据库,如果加了-database temp直接进入这个数据库use default: 数据库间的切换常用终端命令:Qiut /exit 退出Set/ set-v /reset原创 2015-08-12 14:57:26 · 438 阅读 · 0 评论 -
hadoop学习笔记 Hive和普通关系数据库比较
Hive和普通关系数据库比较1.查询语言 HiveSQL2.数据存储位置 Hive是建立在hadoop之上,数据存储在HDFS中;mySQL可以将数据保存在块设备或者本地文件系统中。3.数据格式:Hive中没有专门定义的数据格式。数据格式可以由用户指定,用户定义数据格式需要指定三个属性:列分隔符("\t")、行分隔符("\n")、读取文件数据的方法(TextFile、Seq原创 2015-08-12 14:14:27 · 2331 阅读 · 0 评论 -
hadoop学习笔记 YARN
YARNyet another resource negotiator缩写YARN基本思想:将JobTracker两个主要功能(资源管理和作业调度/监控)分成两个独立进程。两个组件:全局ResourceManager和与每个应用相关的ApplicationMaster。ResourceManager和NodeManager(每个节点一个)共同组成整个数据计算框架。ResourceM原创 2015-08-12 08:40:22 · 562 阅读 · 0 评论 -
hadoop学习笔记 Hadoop工作过程(待完善)
Hadoop工作过程(待完善)MAP实现类实现split (InputFormat类)实现map (mapper类)实现combiner (Combiner类)实现shuffle (Partitioner类)REDUCE实现类实现reduce (Reducer类)实现输出 OutputFormat类HDFS终端命令User Comma原创 2015-08-12 11:00:00 · 481 阅读 · 0 评论 -
hadoop学习笔记 Hadoop进程
Hadoop进程Namenode ——HDFS的守护程序记录文件是如何分割成数据块及这些数据块被存储到哪些节点;对内存和I/O进行集中管理;是个单点,发生故障将使集群崩溃;协调客户端对文件的访问;管理文件系统的命名空间,记录命名空间内的改动或空间本身属性的改动,记录每个文件数据块在各个Datanode上的位置和副本信息;Namenode 使用事务日志记录HDFS原创 2015-08-12 09:29:35 · 867 阅读 · 0 评论 -
大数据之数据挖掘理论笔记 关联规则与Apriori算法
1. 引例——购物篮分析策略一:经常同时购买的商品临近摆放,如啤酒尿布;策略二:强关联商品可以摆放在商品的两端,可能诱发顾客一路挑选其他商品,如硬件和软件。2. 基本概念频繁模式:频繁地出现在数据集中的模式(如项集、子序列、子结构)。原创 2015-09-28 14:09:36 · 2109 阅读 · 0 评论