2018年05月_阿布的进击

原创 Hadoop排序工具用法小结

Hadoop用于对key的排序和分桶的设置选项比较多和复杂，目前在公司内主要以KeyFieldBasePartitioner和KeyFieldBaseComparator被hadoop用户广泛使用。基本概念Partition：分桶过程，用户输出的key经过partition分发到不同的reduce里，因而partitioner就是分桶器，一般用平台默认的hash分桶也可以自己指定。Key：是需要...

2018-05-31 14:23:07 1396

原创 hadoop坏死节点的重启

当你的主从节点配置好之后，但是由于部分原因，子节点坏死掉，打不开【不管怎么说，你的子节点重启了】子节点操作：进入bin目录，执行：1.hadoop-daemon.sh start datanode 2.hadoop-daemon.sh start tasktracker主节点操作：进入bin目录，执行：hadoop d...

2018-05-31 13:06:09 2169

转载大数据项目性能优化实战

项目背景领导：项目 X 二期接近交付，目前性能问题比较严重，解决一下；原因可能是 kafka 单线程效率不足。客户：该模块每 2 分钟经清洗计算生成的处理结果量应该在 13 万，实际查询到的数量只有 7 万。原研发：可能是 kafka 性能问题，因为硬件上不足以修改多进程，多线程版本应该可以。该模块数据流是读取 kafka--> 过滤 --> 写入 snappy。Part 1: 头痛的...

2018-05-29 14:10:24 5790

原创 hadoop集群之物理机通过master:50030访问web界面

通过修改物理机的hosts文件达到这个目的。文件位置：添加对应关系：【并保存】执行结果：

2018-05-21 15:44:41 482

原创 linux系统中关闭/开启防火墙详解

从配置菜单关闭防火墙是不起作用的，索性在安装的时候就不要装防火墙查看防火墙状态：/etc/init.d/iptables status暂时关闭防火墙：/etc/init.d/iptables stop禁止防火墙在系统启动时启动/sbin/chkconfig --level 2345 iptables off重启iptables:/etc/init.d/iptables restart题外话：BT或...

2018-05-18 15:00:52 401

原创 CentOS下安装Anaconda3详细步骤（实现python2和python3共存）

一：Anaconda的安装安装过程中会有两次提示选择yes/no，都选yes就ok。【安装完anaconda，修改~/.bash_profile文件，添加anaconda的bin目录到PATH中（如果最后一个提示你yes/no，选择yes就不需要更改）】然后重开一个terminal终端，你会发现，Centos自带的python2和python3是共存的。二：A...

2018-05-15 18:32:09 11543 1

转载 sys.stdin读取数据

用python尝试了几天的算法题，发现在用sys.stdin读取数据的时候很容易出错，就是while循环和for循环的区别。看下例子(对于输入的一个整数，希望得到整数值。例如：输入31，最后得到的结果为31)：使用while循环：继续看for循环：可以发现，使用for循环是对每一行数据都进行迭代...

2018-05-15 16:38:28 5001

转载 Hive分区、分桶操作及其区别

1，Hive分区。是指按照数据表的某列或某些列分为多个区，区从形式上可以理解为文件夹，比如我们要收集某个大型网站的日志数据，一个网站每天的日志数据存在同一张表上，由于每天会生成大量的日志，导致数据表的内容巨大，在查询时进行全表扫描耗费的资源非常多。那其实这个情况下，我们可以按照日期对数据表进行分区，不同日期的数据存放在不同的分区，在查询时只要指定分区字段的值就可以直接从该分区查找。下面从...

2018-05-11 18:31:46 10073

转载 MapReduce面试题1

简述MapReduce的流程Mapreduce数据倾斜原因和解决方案https://blog.csdn.net/wypersist/article/details/79797075MapReduce执行过程分析https://blog.csdn.net/WYpersist/article/details/80045044MapReduce文件切分个数计算方法https://blog.csdn.n...

2018-05-11 13:23:56 4042

转载 Hdfs面试题1

Hdfs原理读写过程https://blog.csdn.net/wypersist/article/details/79797565存储机制https://blog.csdn.net/wypersist/article/details/79797569HDFS FSimage和edit合并过程https://blog.csdn.net/WYpersist/article/details/80...

2018-05-11 13:22:37 1546

原创 HDFS 四个配置文件(core-site.xml hdfs-site.xml mapred-site.xml yarn-site.xml )的简单介绍

一 core-site.xml<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://master:9000</value>...

2018-05-11 13:19:57 2195

转载关于spark RDD trans action算子、lineage、宽窄依赖详解

这篇文章想从spark当初设计时为何提出RDD概念，相对于hadoop，RDD真的能给spark带来何等优势。之前本想开篇是想总体介绍spark，以及环境搭建过程，但个人感觉RDD更为重要铺垫在hadoop中一个独立的计算，例如在一个迭代过程中，除可复制的文件系统（HDFS）外没有提供其他存储的概念，这就导致在网络上进行数据复制而增加了大量的消耗，而对于两个的MapReduce作业之间数据共享只有...

2018-05-11 13:19:18 2056

转载 Hadoop面试题

1）列出Hadoop集群的Hadoop守护进程和相关的角色。Namenode：它运行上Master节点上，负责存储的文件和目录所有元数据。它管理文件的块信息，以及块在集群中分布的信息。Datanode：它是一个存储实际数据的Slave节点。它定时向Namenode发送本节点上块的信息。Secondary Namenode：它会定期通过Editlog合并NameNode的变化，从而它r的日志不会过大...

2018-05-11 13:19:05 577

转载 hadoop 三个配置文件的参数含义说明(core-site.xml、hdfs-site.xml、mapred-site.xml)

配置hadoop，主要是配置core-site.xml,hdfs-site.xml,mapred-site.xml三个配置文件，默认下来，这些配置文件都是空的，所以很难知道这些配置文件有哪些配置可以生效，上网找的配置可能因为各个hadoop版本不同，导致无法生效。浏览更多的配置，有两个方法:1.选择相应版本的hadoop,下载解压后，搜索*.xml,找到core-default.xml,hdfs-...

2018-05-10 15:16:26 5988 1

转载 ZooKeeper 原理及其在 Hadoop 和 HBase 中的应用

ZooKeeper是一个开源的分布式协调服务，由雅虎创建，是Google Chubby的开源实现。分布式应用程序可以基于ZooKeeper实现诸如数据发布/订阅、负载均衡、命名服务、分布式协调/通知、集群管理、Master选举、分布式锁和分布式队列等功能。简介ZooKeeper是一个开源的分布式协调服务，由雅虎创建，是Google Chubby的开源实现。分布式应用程序可以基于ZooKeeper实...

2018-05-10 13:46:14 170

转载这棵树上，哪个是你？

生活中，一个好的心态，可以使你乐观豁达；一个好的心态，可以使你战胜面临的苦难；一个好的心态，可以使你淡泊名利，过上真正快乐的生活。人类几千年的文明史告诉我们，积极的心态能帮助我们获取健康、幸福和财富。一、心态决定人生:　　　　　　一位哲人说过：“你的心态就是你的主人。”在现实生活中，我们不能控制自己的遭遇，却可以控制自己的心态；我们不能改变别人，却可以改变自己。其实，人与人之间并无太大的区别，真...

2018-05-10 13:25:39 244

转载用python实现Hive中的UDF函数

简介Hive为我们提供了众多的内置函数，但是在实际的运用过程中仍然不能满足我们所有的需求.hive是用java开发的，本身提供了使用java去开发UDF的方式.而这里我们采用python的方式去实现UDF函数.DEMO实现我们这里用python自定义函数，去实现一个方法，利用身份证号去判断性别(18位身份证的倒数第二位偶数为女，奇数为男.15位身份证的倒数第一位偶数为女,奇数为男.)....

2018-05-10 11:59:47 19573 10

转载 python实现Spark(Hive) SQL中UDF的使用

相对于使用MapReduce或者Spark Application的方式进行数据分析，使用Hive SQL或Spark SQL能为我们省去不少的代码工作量，而Hive SQL或Spark SQL本身内置的各类UDF也为我们的数据处理提供了不少便利的工具，当这些内置的UDF不能满足于我们的需要时，Hive SQL或Spark SQL还为我们提供了自定义UDF的相关接口，方便我们根据自己的需求进行扩展...

2018-05-10 11:55:58 2683

转载 MapReduce之：大白话讲解Map/Reduce原理

Hadoop简介Hadoop就是一个实现了Google云计算系统的开源系统，包括并行计算模型Map/Reduce，分布式文件系统HDFS，以及分布式数据库Hbase，同时Hadoop的相关项目也很丰富，包括ZooKeeper，Pig，Chukwa，Hive，Hbase，Mahout，flume等.这里详细分解这里面的概念让大家通过这篇文章了解到底是什么hadoop：1.什么是Map/Reduce，...

2018-05-10 11:31:41 2996 2

转载 MapReduce工作原理图文详解

目录：1.MapReduce作业运行流程2.Map、Reduce任务中Shuffle和排序的过程正文： 1.MapReduce作业运行流程下面贴出我用visio2010画出的流程示意图：流程分析：1.在客户端启动一个作业。2.向JobTracker请求一个Job ID。3.将运行作业所需要的资源文件复制到HDFS上，包括MapReduce程序打包的JAR文件、配置文件和客户端计算所得的输入...

2018-05-10 11:30:10 212

转载 MapReduce原理与设计思想

简单解释 MapReduce 算法一个有趣的例子你想数出一摞牌中有多少张黑桃。直观方式是一张一张检查并且数出有多少张是黑桃？MapReduce方法则是：给在座的所有玩家中分配这摞牌让每个玩家数自己手中的牌有几张是黑桃，然后把这个数目汇报给你你把所有玩家告诉你的数字加起来，得到最后的结论拆分MapReduce合并了两种经典函数：映射（Mapping）对集合里的每个目标应用同一个操作。即，如果你想把表...

2018-05-10 11:28:12 262

转载 Spark和hadoop对比之spark解析

Shuffle过程是MapReduce的核心，也被称为奇迹发生的地方。要想理解MapReduce， Shuffle是必须要了解的。我看过很多相关的资料，但每次看完都云里雾里的绕着，很难理清大致的逻辑，反而越搅越混。前段时间在做MapReduce job 性能调优的工作，需要深入代码研究MapReduce的运行机制，这才对Shuffle探了个究竟。考虑到之前我在看相关资料而看不懂时很恼火，所以在这里...

2018-05-10 11:23:48 800

转载 MapReduce之：详解shuffle过程

Shuffle过程是MapReduce的核心，也被称为奇迹发生的地方。要想理解MapReduce， Shuffle是必须要了解的。我看过很多相关的资料，但每次看完都云里雾里的绕着，很难理清大致的逻辑，反而越搅越混。前段时间在做MapReduce job 性能调优的工作，需要深入代码研究MapReduce的运行机制，这才对Shuffle探了个究竟。考虑到之前我在看相关资料而看不懂时很恼火，所以在这里...

2018-05-10 11:20:10 276 1

转载 python之math模块的使用方法详解

函数说明实例 math.e 自然常数e >>> math.e2.718281828459045 math.pi 圆周率pi >>> math.pi3.141592653589793 math.degrees(x) 弧度转度 >>> math.degrees(math.pi)180.0 math.radians(x) 度转弧度 >&g...

2018-05-08 18:24:00 6973

转载 CentOS关机与重启命令详解

Linux centos关机与重启命令详解与实战　Linux centos重启命令：　　1、reboot　　2、shutdown -r now 立刻重启(root用户使用)　　3、shutdown -r 10 过10分钟自动重启(root用户使用)　　4、shutdown -r 20:35 在时间为20:35时候重启(root用户使用)　　如果是通过shutdown命令设置重启的话，可以用shut...

2018-05-06 23:29:21 458

转载非对称加密，散列（哈希）算法

〇、序言货币由于其天然属性决定了其与安全不可分割的联系，从最早的金库、保险柜、镖局到后来的ATM机、运钞车；从存折到银行卡，从口令卡到优盾，安全技术的进步一步步推动着金融防护领域的更新。传统的货币的安全需求，密码学是安全手段，是从“可用”到“安心用”的升级。而对比特币来说，密码学本身就是比特币体系的一部分，没有密码学支撑的比特币体系会完全崩塌，彻底“不可用”。本质上来说，比特币和密码学是融为一体的...

2018-05-01 00:00:40 4732

张小丑

原创 Hadoop排序工具用法小结

原创 hadoop坏死节点的重启

转载大数据项目性能优化实战

原创 hadoop集群之物理机通过master:50030访问web界面

原创 linux系统中关闭/开启防火墙详解

原创 CentOS下安装Anaconda3详细步骤（实现python2和python3共存）

转载 sys.stdin读取数据

转载 Hive分区、分桶操作及其区别

转载 MapReduce面试题1

转载 Hdfs面试题1

原创 HDFS 四个配置文件(core-site.xml hdfs-site.xml mapred-site.xml yarn-site.xml )的简单介绍

转载关于spark RDD trans action算子、lineage、宽窄依赖详解

转载 Hadoop面试题

转载 hadoop 三个配置文件的参数含义说明(core-site.xml、hdfs-site.xml、mapred-site.xml)

转载 ZooKeeper 原理及其在 Hadoop 和 HBase 中的应用

转载这棵树上，哪个是你？

转载用python实现Hive中的UDF函数

转载 python实现Spark(Hive) SQL中UDF的使用

转载 MapReduce之：大白话讲解Map/Reduce原理

转载 MapReduce工作原理图文详解

转载 MapReduce原理与设计思想

转载 Spark和hadoop对比之spark解析

转载 MapReduce之：详解shuffle过程

转载 python之math模块的使用方法详解

转载 CentOS关机与重启命令详解

转载非对称加密，散列（哈希）算法

吴恩达机器学习个人笔记

空空如也