2018年05月_JokerDa

12月 11月 09月 08月 07月 06月 05月 04月 02月 01月

原创找博客共同好友案例

1 需求：以下是博客的好友列表数据，冒号前是一个用户，冒号后是该用户的所有好友（数据中的好友关系是单向的）A:B,C,D,F,E,OB:A,C,E,KC:F,A,D,ID:A,E,F,LE:B,C,D,M,LF:A,B,C,D,E,O,MG:A,C,D,E,FH:A,C,D,E,OI:A,OJ:B,OK:A,C,DL:D,E,FM:E,F,GO:A,H,I,...

2018-05-30 23:30:31 482

原创 Hadoop 企业优化

1 MapReduce 跑的慢的原因Mapreduce 程序效率的瓶颈在于两点： 1 计算机性能 CPU、内存、磁盘健康、网络2 I/O 操作优化 1）数据倾斜 2） map 和 reduce 数设置不合理 3） map 运行时间太长，导致 reduce 等待过久 4）小文件过多 5）大量的不可分块的超大文件 6） spill 次数过多 7） merge 次数过多等。...

2018-05-30 00:31:54 933

原创 Yarn

1 Hadoop1.x 和 Hadoop2.x 架构区别在 Hadoop1.x 时代， Hadoop 中的 MapReduce 同时处理业务逻辑运算和资源的调度，耦合性较大。在 Hadoop2.x 时代，增加了 Yarn。 Yarn 只负责资源的调度， MapReduce 只负责运算。2 Yarn 概述 Yarn 是一个资源调度平台，负责为运算程序提供服务器运算资源，相当于一个分布...

2018-05-30 00:13:19 617

原创 Hadoop 数据压缩

1 概述压缩技术能够有效减少底层存储系统（HDFS）读写字节数。压缩提高了网络带宽和磁盘空间的效率。在 Hadoop 下，尤其是数据规模很大和工作负载密集的情况下，使用数据压缩显得非常重要。在这种情况下， I/O 操作和网络数据传输要花大量的时间。还有， Shuffle与 Merge 过程同样也面临着巨大的 I/O 压力。鉴于磁盘 I/O 和网络带宽是 Hadoop 的宝贵资源，数据压缩...

2018-05-29 00:22:48 5440

1 数据流的压缩和解压缩 CompressionCodec 有两个方法可以用于轻松地压缩或解压缩数据。要想对正在被写入一个输出流的数据进行压缩，我们可以使用createOutputStream(OutputStreamout)方法创建一个 CompressionOutputStream，将其以压缩格式写入底层的流。相反，要想对从输入流读取而来的数据进行解压缩，则调用 createInputStr...

2018-05-28 23:54:35 303

原创 MapReduce 框架原理

1 MapReduce 工作流程1 流程示意图 2 流程详解上面的流程是整个 mapreduce 最全工作流程，但是 shuffle 过程只是从第 7 步开始到第16 步结束，具体 shuffle 过程详解，如下： 1） maptask 收集我们的 map()方法输出的 kv 对，放到内存缓冲区中 2）从内存缓冲区不断溢出本地磁盘文件，可能会溢出多个文件 3）多个溢...

2018-05-27 19:18:50 3122 1

原创倒排索引案例

1 需求：有大量的文本（文档、网页），需要建立搜索索引数据：a.txtguigui pingpingguigui ssguigui ssb.txtguigui pingpingguigui pingpingpingping ssc.txtguigui ssguigui pingping1）第一次预期输出结果guigui--a.txt 3guigui...

2018-05-27 17:11:13 341

原创日志清洗案例

1 简单解析版 1 需求：去除日志中字段长度小于等于 11 的日志。2 输入数据194.237.142.21 - - [18/Sep/2013:06:49:18 +0000] "GET /wp-content/uploads/2013/07/rstudio-git3.png HTTP/1.1" 304 0 "-" "Mozilla/4.0 (compatible;)"183.4...

2018-05-27 16:01:33 2614

原创 MapReduce 中多表合并案例

数据准备 order.txt1001 01 11002 02 21003 03 31004 01 41005 02 51006 03 6pd.txt01 小米02 华为03 格力将商品信息表中数据根据商品 pid 合并到订单数据表中。最终数据形式：需求 1： Reduce 端表合并（数据倾斜）通过...

2018-05-27 13:54:04 2575 1

原创过滤日志及自定义日志输出路径案例

1 需求过滤输入的 log 日志中是否包含 joker 1）包含 atguigu 的网站输出到 e:/joker.log 2）不包含 atguigu 的网站输出到 e:/other.log2 数据准备http://www.baidu.comhttp://www.google.comhttp://cn.bing.comhttp://www.joker.comhttp://...

2018-05-26 22:46:35 589

原创小文件处理案例

1 需求无论 hdfs 还是 mapreduce，对于小文件都有损效率，实践中，又难免面临处理大量小文件的场景，此时，就需要有相应解决方案。将多个小文件合并成一个文件 SequenceFile，SequenceFile 里面存储着多个文件，存储的形式为文件路径+名称为 key，文件内容为 value。2 分析小文件的优化无非以下几种方式： 1）在数据采集的时候，就将小文件或小批...

2018-05-24 23:35:33 628

原创辅助排序和二次排序案例

1 需求有如下订单数据,现在需要求出每一个订单中最贵的商品。0000001 Pdt_01 222.80000001 Pdt_06 25.80000002 Pdt_03 522.80000002 Pdt_04 122.40000002 Pdt_05 722.40000003 Pdt_01 222.80000003 Pdt_02 33.82 分析 1）利用“订单 id 和成交...

2018-05-24 00:21:29 762

原创流量汇总案例

1 需求统计每一个手机号耗费的总上行流量、下行流量、总流量2 数据准备1363157985066 13726230503 00-FD-07-A4-72-B8:CMCC 120.196.100.82 i02.c.aliimg.com 24 27 2481 24681 2001363157995052 13826544101 5C-0E-8B-...

2018-05-22 23:29:11 720

原创 Hadoop 序列化

1 为什么要序列化？一般来说，“活的”对象只生存在内存里，关机断电就没有了。而且“活的”对象只能由本地的进程使用，不能被发送到网络上的另外一台计算机。然而序列化可以存储“活的”对象，可以将“活的”对象发送到远程计算机2 什么是序列化？序列化就是把内存中的对象，转换成字节序列（或其他数据传输协议）以便于存储（持久化）和网络传输。反序列化就是将收到字节序列（或其他数据传输协议）或者是...

2018-05-20 17:57:50 163

原创 WordCount 案例

统计一堆文件中单词出现的个数 0 需求：在一堆给定的文本文件中统计输出每一个单词出现的总次数 1 数据准备：hello.txthadoop spring javajava sparkhadoop java springhive zookeeper solrspark stromhadoop spring javajava sparkhadoop java springhi...

2018-05-20 12:35:11 2145

原创 MapReduce 入门

1 MapReduce 定义Mapreduce 是一个分布式运算程序的编程框架，是用户开发“基于 hadoop 的数据分析应用”的核心框架。 Mapreduce 核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个 hadoop 集群上。## 标题 ##2 MapReduce 优缺点1 优点 1 MapReduce 易于编程。它简单...

2018-05-17 23:27:15 153

原创 HDFS 其他功能

1 集群间数据拷贝1 scp 实现两个远程主机之间的文件复制scp -r hello.txt root@hadoop103:/user/joker/hello.txt // 推 pushscp -r root@hadoop103:/user/joker/hello.txt hello.txt // 拉 pullscp -r root@hadoop103:/user/joker/he...

2018-05-16 23:58:26 220

原创 DataNode 工作机制

1 DataNode 工作机制1 一个数据块在 datanode 上以文件形式存储在磁盘上，包括两个文件，一个是数据本身，一个是元数据包括数据块的长度，块数据的校验和，以及时间戳。2 DataNode 启动后向 namenode 注册，通过后，周期性（1 小时）的向 namenode 上报所有的块信息。3 心跳是每 3 秒一次，心跳返回结果带有 namenode 给该 d...

2018-05-14 00:08:24 4501

原创 NameNode 工作机制

1 NameNode&amp;amp;amp;Secondary NameNode 工作机制

2018-05-13 13:49:51 4336

原创 HDFS 的数据流

1 HDFS 写数据流程1 剖析文件写入 1 客户端通过 Distributed FileSystem 模块向 namenode 请求上传文件， namenode 检查目标文件是否已存在，父目录是否存在。2 namenode 返回是否可以上传。3 客户端请求第一个 block 上传到哪几个 datanode 服务器上。4 namenode 返回 3 个 datanode ...

2018-05-12 14:33:07 485

原创 HDFS 客户端操作

1 HDFS 客户端环境准备1 jar 包准备 1 解压 hadoop-2.7.2.tar.gz 到非中文目录 2 进入 share 文件夹，查找所有 jar 包，并把 jar 包拷贝到_lib 文件夹下 3 在全部 jar 包中查找 sources.jar，并剪切到_source 文件夹 4 在全部 jar 包中查找 tests.jar，并剪切到_test 文件夹2 Ec

2018-05-10 23:15:12 4318

原创 HDFS的概述与命令操作

一 HDFS 概述1 HDFS 概念 HDFS，它是一个文件系统，用于存储文件，通过目录树来定位文件；其次，它是分布式的，由很多服务器联合起来实现其功能，集群中的服务器有各自的角色。 HDFS 的设计适合一次写入，多次读出的场景，且不支持文件的修改。适合用来做数据分析，并不适合用来做网盘应用。2 HDFS 优缺点优点： 1 高容错性 1）数据自动保存多个副本。它通过增加副本的形式，提

2018-05-08 00:00:57 314

原创完全分布式部署 Hadoop

分析： 1）准备 3 台客户机（关闭防火墙、静态 ip、主机名称） 2）安装 jdk 3）配置环境变量 4）安装 hadoop 5）配置环境变量 6）安装 ssh 7）配置集群 8）启动测试集群1 虚拟机准备复制3份备份的hadoop101，然后将其加入到vmware中如果之前没添加用户则可以#切换到rootadduser jokerpasswd joker

2018-05-07 00:05:43 557 1

原创配置临时文件存储路径、历史服务器、日志的聚集

配置临时文件存储路径 1）停止进程sbin/yarn-daemon.sh stop nodemanagersbin/yarn-daemon.sh stop resourcemanagersbin/hadoop-daemon.sh stop datanodesbin/hadoop-daemon.sh stop namenode2）修改 hadoop.tmp.dir [core-site.

2018-05-05 18:08:31 1331

原创 YARN 上运行 MapReduce 程序

（1）准备 1 台客户机（2）安装 jdk （3）配置环境变量（4）安装 hadoop （5）配置环境变量（6）配置集群 yarn 上运行配置 yarn-env.sh：去下面的目录/opt/module/hadoop-2.7.2/etc/hadoopvim yarn-env.sh #加入javahomeexport JAVA_HOME=/opt/module/

2018-05-05 17:02:37 333

原创伪分布式运行 Hadoop

启动 HDFS 并运行 MapReduce 程序（1）准备 1 台客户机（2）安装 jdk （3）配置环境变量（4）安装 hadoop （5）配置环境变量（6）配置集群配置： hadoop-env.sh: 去下面的目录/opt/module/hadoop-2.7.2/etc/hadoopecho $JAVA_HOME/opt/module/jdk1.8.0_151

2018-05-05 15:57:03 431

原创 Hadoop单机环境搭建

1. 安装linux系统(以centos 6.5为例) 2. 关闭防火墙关闭命令： service iptables stop 永久关闭防火墙：chkconfig iptables off查看防火墙关闭状态： chkconfig iptables --list3. 修改IP配置文件vim /etc/udev/rules.d/70-persistent-net.rules 拿...

2018-05-05 14:41:44 622

基于webmagic的网络爬虫入门demo

基于webmagic的网络爬虫入门demo 希望对大家有所帮助

2018-01-13

java基于jsoup+mongodb的简单爬虫入门程序

java基于jsoup+mongodb的简单爬虫入门程序，简单易懂，希望能给大家提供帮助

2018-01-07

mongodb-linux-x86_64-3.3.6.tgz

mongodb-linux-x86_64-3.3.6.tgz ，有需要的小伙伴可以下载

2017-12-31

jdk1.8可用的dubbo-admin-2.5.4.rar

jdk1.8可用的dubbo-admin-2.5.4.rar,jdk1.8可用的dubbo-admin-2.5.4.rar

2017-09-28

eclipse mars安装spring插件报错

2016-11-09

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

Da.的博客