![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
这里有个程序员儿
个人gzh 是bigdata_nice,欢迎一起学习
展开
-
【nginx】nginx安装及配置
nginx是现在解决分布式高并发框架中最流行的,很多大公司都在用它来作为分布式架构,下面是nginx的配置过程:1.首先下载一下nginx的安装包,下载地址http://nginx.org/en/download.html我下载的是1.8.1的tar包,并将压缩包上传到linux中2.linux中要先下载安装nginx所需要的依赖命令:yum -y install gcc...原创 2019-03-08 16:06:00 · 185 阅读 · 0 评论 -
【HIVE】hive与传统关系型数据库的对比
1.HIVE简介 hive是一个基于hadoop的数据仓库,可以将结构化的数据文件映射为一张hive数据表,并提供简单的查询功能,可以将hql语句转化为MapReduce任务执行。非编程者也可以对hdfs数据做mapreduce操作。使用hive查询可以快速实现简单的mapreduce操作,不必开发专门的mapreduce应用,学习成本低,十分适合数据仓库的统计分析。2.数...原创 2019-03-24 14:56:32 · 1199 阅读 · 0 评论 -
协同过滤算法
基于物品的协同过滤算法ItemCF基于item的协同过滤,通过用户对不同item的评分来评测item之间的相似性,基于item之间的相似性做出推荐。简单来讲就是:给用户推荐和他之前喜欢的物品相似的物品。用例说明:注:基于物品的协同过滤算法,是目前商用最广泛的推荐算法。刚开始看这个用例,感觉还是基于用户进行的推荐,用户A,B,C都喜欢物品a,并且用户A,B喜欢物品c,然后就...转载 2019-04-06 20:20:04 · 229 阅读 · 0 评论 -
【Storm】storm入门
目录一、storm简介二、storm架构三、集群搭建及启动四、计算模型五、storm任务提交流程一、storm简介storm是个实时的、分布式的、高容错、高可靠的计算系统。它是由twitter开源在github上的实时大数据计算框架,2013年进入apache社区孵化,2014年成为apache的顶级金牌项目二、storm架构●Nimbus:资源调度、任务分...原创 2019-04-08 19:56:43 · 293 阅读 · 0 评论 -
【Storm】storm并发机制
Storm的一个topology的执行过程中有以下几个成员参与:从图中可以看出,①当supervisor接收到topology任务的时候,他会分配worker去执行。supervisor与node服务器节点之间是对应关系,supervisor与worker是一对多的关系,即一个supervisor上有一个或者多个worker,但是每个worker只属于一个supervisor。所以一个...原创 2019-04-08 21:43:09 · 156 阅读 · 0 评论 -
【Spark】spark常用算子总结
一、Transformations转换算子filter:过滤符合条件的记录数,true的保留、false的过滤map:将RDD中的数据项,通过map中的函数映射变为一个新的元素(1进1出)mapPartition:执行结果与map相同,但是可以一次遍历整个patitionmapPartitionWithIndex:类似于mapPartitions,除此之外还会携带分区的索引值m...原创 2019-04-15 20:15:22 · 382 阅读 · 0 评论 -
【Spark】spark笔记
Spark粗略总结,后面会排版更新1.spark简介spark是一种专门为大规模数据处理而设计的 快速通用的计算引擎。2.与mapreduce的对比spark在计算过程中产生的中间输出结果是保存在内存中的spark一般情况下比mapreduce快十倍,在迭代计算(机器学习中的逻辑回归)的时候可以快100倍3.spark速度快的原因(1)基于内存计算,也就是中间输出...原创 2019-04-12 21:13:22 · 328 阅读 · 0 评论 -
【Spark】spark执行模式
一、standalone模式1.standalone下的client模式./spark-submit --master spark://node1:7077 --class org.apache.spark.examples.SparkPi ../examples/jars/spark-examples_2.11-2.2.1.jar1000或者./spark-submit -...原创 2019-04-14 16:23:35 · 172 阅读 · 0 评论 -
【Spark】spark shuffle
spark虽然是基于内存计算的,但是它也会产生shuffle首先我们需要知道,Spark任务会根据RDD之间的依赖关系,形成一个DAG有向无环图,DAG会提交给DAGScheduler,DAGScheduler会把DAG划分相互依赖的多个stage,划分stage的依据就是RDD之间的宽窄依赖。遇到宽依赖就划分stage,每个stage包含一个或多个task任务。那我们可以想一下,如果上一个R...原创 2019-04-17 16:09:19 · 244 阅读 · 0 评论 -
【Spark】Spark SQL总结
一、SparkSQL介绍Hive是Shark的前身,Shark是SparkSQL的前身,SparkSQL产生的根本原因是其完全脱离了Hive的限制。1.spark sql的特点1)引入了新的RDD类型SchemaRDD,可以像传统数据库定义表一样来定义SchemaRDD。2)在应用程序中可以混合使用不同来源的数据,如可以将来自HiveQL的数据和来自SQL的数据进行Join操作。...原创 2019-04-18 22:22:40 · 289 阅读 · 0 评论 -
【Hive】Hive笔记之collect_list/collect_set
Hive中有两种用于列转行的函数collect_list和collect_set他们的区别是collect_list获取的结果是全部的可重复的,collect_set的结果是去重之后不重复的。可以联想到list和set集合的特性记忆,list是有序可重复的,set是无序不可重复的。例如:students中有学生id和课程字段select id,collect_list(co...原创 2019-03-30 21:05:33 · 1385 阅读 · 0 评论 -
分布式下的memcached安装
尽管分布式能解决高并发的问题,但是如何保持每个服务器下的session一致性呢,session共享是一个分布式环境下的很重要的问题。有两种方案:session复制tomcat 本身带有复制session的功能。 2. 共享session 需要专门管理session的软件, memcached 缓存服务,可以和tomcat整合,帮助tomcat共享...原创 2019-03-08 21:09:58 · 164 阅读 · 0 评论 -
浅析nginx分布式负载均衡
在当前大数据时代,数据尤为重要,但是在拥有大量数据的同时也给服务器带来了巨大的挑战,数据量大而服务器承载不了最终就会导致服务器宕机,以至于导致整个系统崩溃。那么怎么解决这一难题呢,这时候就出现了负载均衡这一理念。 负载均衡:负载均衡(Load Balance)其意思就是分摊到多个操作单元上进行执行,例如Web服务器、FTP服务器、企业关键应用服务器和其它关键任务服务器等,...原创 2019-03-08 21:07:53 · 1056 阅读 · 0 评论 -
【Hive】hql详解
DML语句1.创建数据库create database 数据库名2.修改数据库数据库其他元数据都是不可更改的,包括数据库名和数据库所在目录位置为数据库的dbproperties设置键值对属性值,来描述数据库属性信息,ALTER (DATABASE|SCHEMA) database_name SET DBPROPERTIES (property_name=propert...原创 2019-03-19 20:19:42 · 634 阅读 · 0 评论 -
【大数据】学习hdfs
HDFS是什么?Hadoop Distributed File System,它是一种分布式文件存储系统,主要解决大数据的存储问题。HDFS的优缺点:优点:适合大数据处理 适合批处理 百万规模以上的文件数量:10K+ 节点 可以构建在廉价的机器上 高可靠性:通过多副本提高安全可靠性 高容错性:数据自动保存多个副本;副本丢失后,自动恢复,提供了恢复机制缺点:低延迟高数...原创 2019-03-12 20:06:40 · 188 阅读 · 0 评论 -
【大数据】hadoopHA机制和联邦机制
HAhadoopHA也就是hadoop2.x实现了高可用,通过主备namenode解决了hadoop1.x中存在的单点故障问题。HA机制架构图:架构图可以从下往上看: DataNode在发送block的位置信息会同时向主备namenode发送。但是在读写文件的时候还是会通过主namenode(active),也就是元数据信息还是保存在active namenode...原创 2019-03-12 20:46:14 · 506 阅读 · 0 评论 -
【大数据】浅析yarn资源管理任务调度流程
hadoop2.x中引入了yarn,它的核心思想就是将MRv1中JobTracker的资源管理和任务调度两个功能分开,分别由ResourceManager和ApplicationMaster进程实现。ResourceManager: 负责整个集群的资源管理和调度。ApplicationMaster:负责应用程序相关的事务,比如任务调度、任务监控和容错等。yarn可以使多个计算框架接入...原创 2019-03-12 20:56:32 · 523 阅读 · 0 评论 -
【大数据】zookeeper总结
什么是zookeeper?为什么使用zookeeper?ZooKeeper是一个分布式的,开源的分布式应用程序协调服务,是hadoop和hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。它在Hadoop2.x中的作用是确保整个集群只有一个NameNode是active,存储配置信息等.zookeeper中的角...原创 2019-03-13 12:07:00 · 246 阅读 · 0 评论 -
【Kafka】kafka消息队列
目录ISR机制数据丢失重复消费高吞吐的本质ISR机制kafka数据一致性简介:kafka中的每个patition中可以有一个leader多个follower,而消息写入kafka时只是会发送到leader中,然后数据会被其他的replication拉取复制,其他的replication也就是follwer只是作为副本存在,在leader出现问题的时候才会选举成为lead...原创 2019-04-03 21:21:53 · 383 阅读 · 0 评论 -
【Spark】spark streaming
一、简介Spark Streaming是一种准实时的流式计算框架,它对数据处理的单位是一批而不是一条,在数累积到设置的时间间隔后,对数据进行统一的微批处理。这个时间间隔是Spark Streaming的核心概念和关键参数,直接决定了Spark Streaming作业的数据处理延迟,当然也决定了吞吐量和性能。实时数据的来源可以是:Kafka, Flume, Twitter, ZeroMQ或者TC...原创 2019-04-19 22:21:11 · 271 阅读 · 0 评论