大数据
文章平均质量分 51
狂暴棕熊
这个作者很懒,什么都没留下…
展开
-
大数据学习笔记(四)-ZooKeeper
http://archive.cloudera.com/cdh5/cdh/5/zookeeper-3.4.5-cdh5.7.0.tar.gz原创 2017-11-19 20:53:00 · 275 阅读 · 0 评论 -
大数据学习笔记(十六)-Hue的安装部署和使用
1.安装Hue的依赖sudo yum install ant asciidoc cyrus-sasl-devel cyrus-sasl-gssapi gcc gcc-c++ krb5-devel libtidy libxml2-devel libxslt-devel make mvn mysql mysql-devel openldap-devel python-devel sqlite-devel原创 2017-12-27 15:47:04 · 501 阅读 · 0 评论 -
大数据学习笔记(十八)-MRUnit
MapReduce是跑在集群上的,这就意味着MapReduce的作业很难被调试。当然可以采用Log输出的方式来查看,但是这样效率很低,也很难定位问题,因为要每次打包,上传,执行jar包。 所以本地Debug单步调试非常的重要,调试的方法是使用MRUnit 在maven中添加MRUnit的依赖dependency> groupId>org.apache.mrunitgroupId原创 2018-01-05 15:47:40 · 258 阅读 · 0 评论 -
Spark学习阶段总结
学习Spark一段时间后,实际上是有些困惑的 如果说只针对数据操作的话,大部分算子都用过了,学习的成本并不高,因为之前是做Android开发的,所以感觉api方面好少,没有那么多东西需要掌握。但是实际上自己很清楚自己的水平,但是后续如何提升大概有几点想法。 1.相关的配置和使用,spark里面有大量的属性配置,好的配置可以提高运行效率。 2.spark里要完成同一件事,可以使用不同的算子组合原创 2018-01-25 15:26:23 · 304 阅读 · 0 评论 -
大数据学习笔记(六)-Spark的RDD
创建 RDD是Spark中的数据集,是只读的 RDD可以从集合,普通文件系统,HDFS文件系统中创建 scala创建RDD的方法val lines1 = sc.parallelize(List("aa","bb"))val lines2 = sc.textFile("file:///opt/spark/README.md")val lines3 = sc.textFile("hd原创 2017-11-28 20:32:44 · 291 阅读 · 0 评论 -
《数据算法-Hadoop/Spark大数据处理技巧》读书笔记(四)——移动平均
移动平均:对时序序列按周期取其值的平均值,这种运算被称为移动平均。典型例子是求股票的n天内的平均值。 移动平均的关键是如何求这个平均值,可以使用Queue来实现。public class MovingAverageDriver { public static void main(String[] args){ SparkConf conf = new SparkC原创 2018-02-01 17:04:26 · 1693 阅读 · 0 评论 -
大数据学习笔记(六)-Spark环境配置
Spark版本:1.6.3 for hadoop2.6 下载地址:https://spark.apache.org/downloads.htmlScala版本:2.11.8 下载地址:http://www.scala-lang.org/download/2.11.8.htmlSpark配置: spark-env配置:export SPARK_MASTER_IP=hadoop0原创 2017-11-27 17:28:54 · 428 阅读 · 0 评论 -
《数据算法-Hadoop/Spark大数据处理技巧》读书笔记(一)——二次排序
写在前面: 在做直播的时候有同学问Spark不是用Scala语言作为开发语言么,的确是的,从网上查资料的话也会看到大把大把的用Scala编写的Spark程序,但是仔细看就会发现这些用Scala写的文章绝大部分是初级内容,最常见的就是某一个API是怎么用的,很多都是拷贝粘贴的重复内容,真正深入的内容并不多见。之前看美团团队写的Spark优化相关放出的代码是用Java写的,《数据算法-Hadoop/原创 2018-01-26 16:03:45 · 2436 阅读 · 0 评论 -
《数据算法-Hadoop/Spark大数据处理技巧》读书笔记(二)——TopN列表
大数据计算力经常要面对TopN的问题,也就是一个大集合里取排序后的前N个数据。 1.Key值唯一 ①MapReduce: 在Map中使用SortedMap完成每个节点的TopN操作,然后所有节点将数据汇聚到Reduce节点,再次使用SortedMap完成TopN操作,其中setup()中做初始化工作,map()中构造SortedMap,在cleanup()中将生成的SortedMap输出给r原创 2018-01-29 14:33:15 · 550 阅读 · 0 评论 -
Spark开发中遇到的问题及解决方法
1.Windows下运行spark产生的Failed to locate the winutils binary in the hadoop binary path异常 解决方法: 1.下载winutils的windows版本 GitHub上,有人提供了winutils的windows的版本,项目地址是:https://github.com/srccodes/hadoop-co原创 2018-01-16 15:38:16 · 2084 阅读 · 0 评论 -
《数据算法-Hadoop/Spark大数据处理技巧》读书笔记(五)——购物篮分析
这个购物篮分析要先理解他在算什么,我的理解是通过购物小票上的购物信息,在指定规则下穷举全部的购物关联性。 1.模型解释 ①数据源 a、b、c、d分别代表一种商品,超市的购物小票数据如下(为了简单起见,取4条小票数据),每个小票中的商品必须按照一定的顺序进行排列,否则会出现重复计算的情况: a,b,c a,b,d b,c b,c ②定义模式长度为3,即最多只考虑3种商品的购买管理关系...原创 2018-02-05 18:42:00 · 1171 阅读 · 0 评论 -
大数据学习笔记(十七)-MapReduce
1.在MapReduce中被分成了两类,map操作和reduce操作,1个job是由若干次map操作和1次reduce操作组成的。 在MapReduce中,最重要的就是理解数据在处理时都是以Key/Value形式输入输出的(在数据初始读入时,也是以Key/Value形式读入的) 2.对map、reduce操作的理解 ①map是映射:简单理解的话可以理解成遍历原有数据集中的所有数据,针对每一条原创 2018-01-04 18:25:56 · 473 阅读 · 0 评论 -
大数据学习笔记(十二)-SparkSQL
1.数据的分类 ①非结构化数据:文本、多媒体 ②结构化数据:数据库、格式化文本 ③半结构化数据:key-value、xml、tag 2.DataFrame和RDD的区别 DataFrame是带Schema的RDD 创建DataFrame的方法:scala>val ssc = new org.apache.spark.sql.SQLContext(sc)scala>val df = ss原创 2017-12-18 23:20:53 · 1828 阅读 · 0 评论 -
大数据学习笔记(三)-Yarn
简单来说Yarn就是一个资源调度管理器配置Yarn 参考文档:http://hadoop.apache.org/docs/r2.6.0/hadoop-project-dist/hadoop-common/SingleCluster.html1.etc/hadoop/mapred-site.xml:cp mapred-site.xml.template mapred-site.xml<propert原创 2017-11-19 14:02:04 · 273 阅读 · 0 评论 -
大数据学习笔记(十五)-大数据调度框架
1.常用框架 crontab 存在的问题:单机的 Azkaban 开源的工作流框架,批处理 https://azkaban.github.io/ Oozie http://oozie.apache.org/原创 2017-12-27 14:11:48 · 1890 阅读 · 0 评论 -
大数据学习笔记(五)-HBase
参考文档: http://hbase.apache.org/book.html#faq HBase下载地址: http://archive.cloudera.com/cdh5/cdh/5/hbase-1.2.0-cdh5.7.0.tar.gz配置: 1.hbase-env.sh 配置JAVA_HOME export HBASE_MANAGES_ZK=false2.hbase-site.x原创 2017-11-21 09:54:29 · 218 阅读 · 0 评论 -
大数据学习笔记-(一)准备
视频课程位置: http://www.kgc.cn/job/oe/24809.shtml 虚拟机VMware14: https://www.52pojie.cn/thread-648896-1-1.html CentOS版本选择CentOS7: http://mirrors.cn99.com/centos/7/isos/x86_64/CentOS-7-x86_64-Everything-1原创 2017-11-03 16:52:02 · 442 阅读 · 0 评论 -
大数据学习笔记(七)-Spark的图形化工具的使用
启动Spark集群:start-all.sh 进入集群的spark-shell: spark-shell –master=spark://hadoop000:7077 进入集群的WebUI管理界面:hadoop000:8080 打开EventLog: conf下的spark-defaults.conf开启配置:spark.eventLog.enabled truespa原创 2017-12-01 10:18:01 · 1993 阅读 · 0 评论 -
大数据学习笔记(十三)-SparkStreaming
1.概念 数据处理的基本单位:离散流(discretized stream或DStream) 支持容错 支持状态处理 支持窗口操作 2.DStream的基本操作 转化操作 窗口操作 输出操作 3.DStream特有API 参考:http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.str原创 2017-12-19 16:51:11 · 186 阅读 · 0 评论 -
大数据学习笔记(八)-Hive(基础)
1.下载Hive: http://archive.cloudera.com/cdh5/cdh/5/ 2.安装MySQL 参考:https://www.cnblogs.com/starof/p/4680083.html 其中关于my.cnf的设置是错误的,应改成: character-set-server=utf8 3./conf/hive-site.xml<?xml version=原创 2017-12-11 17:56:36 · 251 阅读 · 0 评论 -
大数据学习笔记(九)-大数据中的压缩
1.常见压缩格式: gzip,bizp2,LZO,Snappy 2.压缩技术使用原则: 缩小体积则需要更多的CPU计算量,存储数据倾向于大压缩比的压缩技术,根据实际情况选择合适的压缩技术。 3.压缩在大数据计算中的一个重要考量是压缩技术是否支持分割(split) bzip2支持,LZO创建索引后支持 4.要让Hadoop支持压缩,需要对Hadoop源码进行编译原创 2017-12-13 14:59:09 · 2431 阅读 · 0 评论 -
大数据学习笔记(十)-Hive中的Storage format
1.Storage format 行存储:SEQUENCEFILE、TEXTFILE 列存储:RCFILE、ORC、PARQUET、AVRO 2.行存储VS列存储 行式存储: ①一行数据一定在一个block里 ②一行数据类型混杂,不容易获得很好的压缩比 ③不能支持快速查询列式存储: ①一行数据不一定在一个block里 ②查询时能够避免读取不必要的列 ③每一列存储数据类型相同,可以原创 2017-12-13 21:29:03 · 1357 阅读 · 0 评论 -
大数据学习笔记-(二)启动集群&配置IDE环境
1.启动集群,格式化文件系统 bin/hdfsnamenode−format2.启动 bin/hdfs namenode -format 2.启动 sbin/start-dfs.sh 3.验证集群是否启动成功 1)jps 2)浏览器访问:hadoop000:50070hdfs shell 1.文件操作 hadoop fs搭建maven开发环境 下载maven3.3.9:h原创 2017-11-06 15:31:14 · 390 阅读 · 0 评论 -
大数据学习笔记(十一)-Hive进阶
1.Hive的访问方式 ①Hive shell ②HiveServer&beeline ③HUE、Zepplin等WebUI的访问方式2.hiveserver2 ①启动: hiveserver2 ②使用beeline连接hive:beeline -u jdbc:hive2://hadoop000:10000/default -n hadoop 在运行的过程中我遇到了这样的问题,百度原创 2017-12-15 17:58:38 · 1048 阅读 · 0 评论 -
大数据学习笔记(十三)-Hive高级
1.Hive的元数据表 TBLS:TBL_ID、DB_ID、SD_ID、TBL_NAME、TBL_TYPE TABLE_PARAMS:存储表/视图的属性信息 TBL_PRIVS:存储表/视图的权限信息,一般不用HIVE的权限,而是用sentry来进行权限控制 SDS:保存文件存储的基本信息,比如INPUT_FORMAT、OUTPUT_FORMAT、是否压缩 COLUMNS_V2:存储表对应原创 2017-12-20 17:25:49 · 207 阅读 · 0 评论 -
大数据学习笔记(十四)-Sqoop
1.版本 sqoop1为1.4.6以前的版本(包括) sqoop2为1.4.6以后的版本(不包括) sqoop1与sqoop2的构架是不同的 2.sqoop配置 conf/sqoop-env.sh#Set path to where bin/hadoop is availableexport HADOOP_COMMON_HOME=/home/hadoop/app/hadoop-2.6.0原创 2017-12-25 15:26:56 · 214 阅读 · 0 评论 -
《数据算法-Hadoop/Spark大数据处理技巧》读书笔记(三)——Order Inverse
这章的名称叫反转排序,应该说让人非常的迷惑。 这里我觉得一篇Blog对Order Inverse的解释更合理一些(http://blog.csdn.net/hadoop_mapreduce/article/details/39802287),根据这篇文章实际上Order Inverse的实质是由开发者控制框架Partition的规则,来保证框架在Shuffle的时候能够按照期望将会被一起处理的数原创 2018-01-30 14:36:54 · 389 阅读 · 0 评论