这里有个程序员儿-CSDN博客

转载 JVM堆内存调优

转载自：https://blog.51cto.com/lizhenliang/2164876?wx=JAVA堆内存管理是影响性能主要因素之一。堆内存溢出是JAVA项目非常常见的故障，在解决该问题之前，必须先了解下JAVA堆内存是怎么工作的。先看下JAVA堆内存是如何划分的，如图：JVM内存划分为堆内存和非堆内存，堆内存分为年轻代（Young Generation）、老年代（Old...

2019-04-26 20:24:09 349

一、简介Spark Streaming是一种准实时的流式计算框架，它对数据处理的单位是一批而不是一条，在数累积到设置的时间间隔后，对数据进行统一的微批处理。这个时间间隔是Spark Streaming的核心概念和关键参数，直接决定了Spark Streaming作业的数据处理延迟，当然也决定了吞吐量和性能。实时数据的来源可以是：Kafka, Flume, Twitter, ZeroMQ或者TC...

2019-04-19 22:21:11 342

原创【Spark】Spark SQL总结

一、SparkSQL介绍Hive是Shark的前身，Shark是SparkSQL的前身,SparkSQL产生的根本原因是其完全脱离了Hive的限制。1.spark sql的特点1）引入了新的RDD类型SchemaRDD，可以像传统数据库定义表一样来定义SchemaRDD。2）在应用程序中可以混合使用不同来源的数据，如可以将来自HiveQL的数据和来自SQL的数据进行Join操作。...

2019-04-18 22:22:40 371

原创【Spark】spark shuffle

spark虽然是基于内存计算的，但是它也会产生shuffle首先我们需要知道，Spark任务会根据RDD之间的依赖关系，形成一个DAG有向无环图，DAG会提交给DAGScheduler，DAGScheduler会把DAG划分相互依赖的多个stage，划分stage的依据就是RDD之间的宽窄依赖。遇到宽依赖就划分stage,每个stage包含一个或多个task任务。那我们可以想一下，如果上一个R...

2019-04-17 16:09:19 295

原创【Spark】spark常用算子总结

一、Transformations转换算子filter：过滤符合条件的记录数，true的保留、false的过滤map：将RDD中的数据项，通过map中的函数映射变为一个新的元素（1进1出）mapPartition：执行结果与map相同，但是可以一次遍历整个patitionmapPartitionWithIndex:类似于mapPartitions,除此之外还会携带分区的索引值m...

2019-04-15 20:15:22 488

原创【Spark】spark执行模式

一、standalone模式1.standalone下的client模式./spark-submit --master spark://node1:7077 --class org.apache.spark.examples.SparkPi ../examples/jars/spark-examples_2.11-2.2.1.jar1000或者./spark-submit -...

2019-04-14 16:23:35 220

原创【Spark】spark笔记

Spark粗略总结，后面会排版更新1.spark简介spark是一种专门为大规模数据处理而设计的快速通用的计算引擎。2.与mapreduce的对比spark在计算过程中产生的中间输出结果是保存在内存中的spark一般情况下比mapreduce快十倍，在迭代计算（机器学习中的逻辑回归）的时候可以快100倍3.spark速度快的原因（1）基于内存计算，也就是中间输出...

2019-04-12 21:13:22 396

转载【数据库】Memcached、Redis、MongoDB、HBase非关系型数据库的对比

存储方式Memcached：内存 Redis：内存，同时支持持久化，本地磁盘 MongoDB：本地磁盘 HBase： HDFS数据类型Memcached：仅支持String，key、value的数据大小都有限制，一般1M Redis： key需是String，但是value支持String，List，Set等丰富的数据类型，数据大小限制比Memcached大许多，一般500M...

2019-04-10 16:41:55 333

原创【Storm】storm并发机制

Storm的一个topology的执行过程中有以下几个成员参与：从图中可以看出，①当supervisor接收到topology任务的时候，他会分配worker去执行。supervisor与node服务器节点之间是对应关系，supervisor与worker是一对多的关系，即一个supervisor上有一个或者多个worker，但是每个worker只属于一个supervisor。所以一个...

2019-04-08 21:43:09 198

原创【Storm】storm入门

目录一、storm简介二、storm架构三、集群搭建及启动四、计算模型五、storm任务提交流程一、storm简介storm是个实时的、分布式的、高容错、高可靠的计算系统。它是由twitter开源在github上的实时大数据计算框架，2013年进入apache社区孵化，2014年成为apache的顶级金牌项目二、storm架构●Nimbus：资源调度、任务分...

2019-04-08 19:56:43 390

转载协同过滤算法

基于物品的协同过滤算法ItemCF基于item的协同过滤，通过用户对不同item的评分来评测item之间的相似性，基于item之间的相似性做出推荐。简单来讲就是：给用户推荐和他之前喜欢的物品相似的物品。用例说明：注：基于物品的协同过滤算法，是目前商用最广泛的推荐算法。刚开始看这个用例，感觉还是基于用户进行的推荐，用户A,B,C都喜欢物品a,并且用户A,B喜欢物品c，然后就...

2019-04-06 20:20:04 275

原创【Kafka】kafka消息队列

目录ISR机制数据丢失重复消费高吞吐的本质ISR机制kafka数据一致性简介：kafka中的每个patition中可以有一个leader多个follower，而消息写入kafka时只是会发送到leader中，然后数据会被其他的replication拉取复制，其他的replication也就是follwer只是作为副本存在，在leader出现问题的时候才会选举成为lead...

2019-04-03 21:21:53 457

原创【Hive】Hive笔记之collect_list/collect_set

Hive中有两种用于列转行的函数collect_list和collect_set他们的区别是collect_list获取的结果是全部的可重复的，collect_set的结果是去重之后不重复的。可以联想到list和set集合的特性记忆，list是有序可重复的，set是无序不可重复的。例如：students中有学生id和课程字段select id,collect_list(co...

2019-03-30 21:05:33 1504

转载 Centos磁盘扩容

转载自：https://my.oschina.net/u/876354/blog/967848最近在VMware虚拟机上使用Centos，用着用着，发现虚拟机的磁盘空间不够了。通过以下步骤成功扩展了根目录的磁盘空间1、Centos 关机，选择编辑虚拟机设置，硬盘，在实用工具那里选择“扩展”填写扩展的磁盘容量点击扩展后，VMware会提示磁盘已成功扩展。您必须从客户机操作系统...

2019-03-26 18:45:50 539

原创【HIVE】hive与传统关系型数据库的对比

1.HIVE简介 hive是一个基于hadoop的数据仓库，可以将结构化的数据文件映射为一张hive数据表，并提供简单的查询功能，可以将hql语句转化为MapReduce任务执行。非编程者也可以对hdfs数据做mapreduce操作。使用hive查询可以快速实现简单的mapreduce操作，不必开发专门的mapreduce应用，学习成本低，十分适合数据仓库的统计分析。2.数...

2019-03-24 14:56:32 1269

原创【Hive】hql详解

DML语句1.创建数据库create database 数据库名2.修改数据库数据库其他元数据都是不可更改的，包括数据库名和数据库所在目录位置为数据库的dbproperties设置键值对属性值，来描述数据库属性信息，ALTER (DATABASE|SCHEMA) database_name SET DBPROPERTIES (property_name=propert...

2019-03-19 20:19:42 724

原创【大数据】zookeeper总结

什么是zookeeper？为什么使用zookeeper？ZooKeeper是一个分布式的，开源的分布式应用程序协调服务，是hadoop和hbase的重要组件。它是一个为分布式应用提供一致性服务的软件，提供的功能包括：配置维护、域名服务、分布式同步、组服务等。它在Hadoop2.x中的作用是确保整个集群只有一个NameNode是active,存储配置信息等.zookeeper中的角...

2019-03-13 12:07:00 324

原创【大数据】浅析yarn资源管理任务调度流程

hadoop2.x中引入了yarn，它的核心思想就是将MRv1中JobTracker的资源管理和任务调度两个功能分开，分别由ResourceManager和ApplicationMaster进程实现。ResourceManager：负责整个集群的资源管理和调度。ApplicationMaster：负责应用程序相关的事务，比如任务调度、任务监控和容错等。yarn可以使多个计算框架接入...

2019-03-12 20:56:32 594

原创【大数据】hadoopHA机制和联邦机制

HAhadoopHA也就是hadoop2.x实现了高可用，通过主备namenode解决了hadoop1.x中存在的单点故障问题。HA机制架构图：架构图可以从下往上看： DataNode在发送block的位置信息会同时向主备namenode发送。但是在读写文件的时候还是会通过主namenode（active），也就是元数据信息还是保存在active namenode...

2019-03-12 20:46:14 581

原创【大数据】学习hdfs

HDFS是什么？Hadoop Distributed File System，它是一种分布式文件存储系统，主要解决大数据的存储问题。HDFS的优缺点：优点：适合大数据处理适合批处理百万规模以上的文件数量:10K+ 节点可以构建在廉价的机器上高可靠性：通过多副本提高安全可靠性高容错性：数据自动保存多个副本；副本丢失后，自动恢复,提供了恢复机制缺点：低延迟高数...

2019-03-12 20:06:40 234

原创分布式下的memcached安装

尽管分布式能解决高并发的问题，但是如何保持每个服务器下的session一致性呢，session共享是一个分布式环境下的很重要的问题。有两种方案：session复制tomcat 本身带有复制session的功能。 2. 共享session 需要专门管理session的软件， memcached 缓存服务，可以和tomcat整合，帮助tomcat共享...

2019-03-08 21:09:58 205

原创浅析nginx分布式负载均衡

在当前大数据时代，数据尤为重要，但是在拥有大量数据的同时也给服务器带来了巨大的挑战，数据量大而服务器承载不了最终就会导致服务器宕机，以至于导致整个系统崩溃。那么怎么解决这一难题呢，这时候就出现了负载均衡这一理念。负载均衡：负载均衡（Load Balance）其意思就是分摊到多个操作单元上进行执行，例如Web服务器、FTP服务器、企业关键应用服务器和其它关键任务服务器等，...

2019-03-08 21:07:53 1124

原创【nginx】nginx安装及配置

nginx是现在解决分布式高并发框架中最流行的，很多大公司都在用它来作为分布式架构，下面是nginx的配置过程：1.首先下载一下nginx的安装包，下载地址http://nginx.org/en/download.html我下载的是1.8.1的tar包，并将压缩包上传到linux中2.linux中要先下载安装nginx所需要的依赖命令：yum -y install gcc...

2019-03-08 16:06:00 218

原创【linux】linux服务器之间免密码通讯

不同的linux服务器之间经常需要互相通讯，比如说远程传输文件，此时都会需要输入密码，而一直输入密码是重复的工作，如何避免输入密码呢，其实很简单。让A和B分别生成自己的公钥，然后给对方，对方做好记录，以后就不要在输入密码这种重复性的工作了。第一步：分别在两台服务器上执行命令ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa这一步用于生成私钥和公钥，...

2019-03-07 19:35:13 381 1

转载【linux】解决安装MySQL时登录错误--error: 'Access denied for user 'root'@'localhost' (using password: YES)'

在使用Linux安装MySQL登录时报：mysqladmin: connect to server at 'localhost' failederror: 'Access denied for user 'root'@'localhost' (using password: YES)' 错误。解决办法：破解MySQL密码1、停止mysql服务：servic...

2019-03-07 19:21:27 543

原创【linux】网络模式：桥接模式与NAT模式

桥接模式：结构：网络与物理机同一个网段（会占用外部IP）特点： 1.外网能够访问虚拟机 2.虚拟机能够访问外网 3.会占用外部IP，并且不安全注意：桥接模式下的虚拟机网关必须改为与物理机网关一致NAT模式：结构：构成一个以vmware物理机为网关的子网特...

2019-03-07 19:16:22 383

原创【linux】linux服务和进程

服务1.linux下查询服务命令 chkconfig可以清晰的看到每种级别下对应的开关状态/etc/init.d 目录包含许多系统各种服务的启动和停止脚本/etc/rc.d/目录下rc0.d-rc6.d子目录里分别放的是系统对应执行级别的服务软连接如下是默认级别3时各个服务的状态2.操作服务状态service 服务名 start/stop/stat...

2019-03-07 18:59:14 363

原创【linux】linux系统配置

一、.用户信息存在于 /etc/shadow和/etc/passwd下二、用户组信息存在于/etc/group下三、系统服务器初始化配置存在于/etc/inittab下 0：停机状态[工作中实际生产环境慎用！]　　1：单用户模式，root账户进行操作　　2：多用户，不能使用net file system，一般很少用　　3：默认的完全多用户，一部分启动，一部分...

2019-03-05 20:58:31 389

原创【linux】linux磁盘、目录、文件大小

1.查看磁盘信息命令：df （默认以kb为单位，等同于df -k）df -m是以mb为单位显示，df -h是最便于观看的直接换算成合适单位的2.查看文件及目录大小命令：du用法与df类似查看可以给直接定位到具体哪一层，命令：du --max-depth=[层数] 目录名称...

2019-03-05 19:56:19 460

原创【linux】linux网络指令

1.查看网络配置信息ifconfig2.测试与目标机的连通性ping 目标iplinux下ping会一直发送数据包，需要停止ctrl+c3.显示各种网络相关信息netstatnetstat后面也可以跟特殊命令用于过滤个别属性的网络信息-a (all)显示所有选项，默认不显示LISTEN相关-t (tcp)仅显示tcp相关选项-u (udp)仅显示ud...

2019-03-05 19:46:44 1106 2

原创【linux】linux操作目录及文件常用命令

linux法则：一切皆文件，有事找男人就是说在linux中，不管是文件还是目录，都可以把他当成一个文件来看待；遇到命令不知道怎么用，可以使用man插件。1.切换目录cd 路径，如：cd /bin即可转到/下的bin路径下。cd ..是指转到当前目录的上一层目录。切换到root目录下可以有三种操作方式：只输入cd；cd ~；cd /root2. 查看当前目录的完整路径 ...

2019-03-04 22:31:54 258

GG(❤ ω ❤)YY