
大数据
大数据
优惠券已抵扣
余额抵扣
还需支付
¥49.90
¥99.00
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
TrueDei
不荒废现在,不畏惧未来!我认为把知识给别人讲会,讲明白,自己才彻底明白。努力把文章写好,写明白每一篇文章,分享给更多人。
展开
-
一文能看懂的2020最新版Mondrian3.x+MySql5.7教程
网上搜一个案例或者资料,几乎都是一模一样的,很烦人。而且版本很老了。出错也是很正常的,这里为了方便更多使用mondrian的朋友学习。我就在他们的基础上进行重新梳理了一下,然后来写的这篇文章。一文能看懂的2020最新版Mondrian3.x+MySql5.7教程原创 2020-04-11 23:24:43 · 4874 阅读 · 53 评论 -
Docker构建自己的Hadoop容器之Hadoop伪分布式搭建
Docker现在用的越来越多了,咱们也要跟上节奏呀,来吧我的目录结构如下:首先创建一个目录用来存放咱们后来想要存放的一些东西,例如hadoop的安装包,jdk的安装包等.zhenghui@F117:/soft/code/hadoopImages$ zhenghui@F117:/soft/code/hadoopImages$ pwd/soft/code/hadoopImageszheng...原创 2020-02-12 11:44:31 · 1280 阅读 · 0 评论 -
Hadoop对输出的数据进行排序另外分组
Hadoop对输出的数据进行排序另外分组数据如果没有数据的话可以点开https://blog.csdn.net/qq_17623363/article/details/104146939对我这个案例进行做出来然后这是上一个案例另外加的一个分组代码MyPartitioner2.javapackage com.zhenghui.writablecomparable2;impo...原创 2020-02-02 22:51:34 · 874 阅读 · 1 评论 -
WritableComparable排序(实例等)
排序是MapReduce框架中最重要的操作之一。MapTask和ReduceTask在执行过过程中都会按照数据的key进行排序,排序是Hadoop的默认行为,不排序都不行,所以可以利用排序这个机制,来完成咱们想要的排序工作。默认排序是按照字典顺序排序,且实现该排序的方法是快速排序。首先本排序案例是在https://editor.csdn.net/md/?articleId=10412377...原创 2020-02-02 22:26:16 · 1237 阅读 · 0 评论 -
Hadoop-Partition分区案例(分类处理)
需求将统计结果按照手机归属地不同省份输出到不同文件中(分区)。1、输入数据1,13736230513,192.196.100.1,www.atguigu.com,2481,24681,2002,13846544121,192.196.100.2,,264,0,2003,13956435636,192.196.100.3,,132,1512,2004,13966251146,192.1...原创 2020-02-02 16:55:31 · 1169 阅读 · 0 评论 -
自定义InputFormat案例-(合并文件)
引言无论HDFS还是MapReduce,在处理小文件时效率都是非常低,但又难免面临处理大量小文件的场景,此时,就需要有相应的解决方案。可以自定义InputFormat实现小文件的合并。需求将多个小文件合并成一个SequenceFile文件(SequenceFile文件是Hadoop用来存储二进制形式的key-value对的文件格式),SequenceFile里面存储着多个文件,存储的形式为路...原创 2020-02-01 13:42:36 · 764 阅读 · 0 评论 -
大数据-统计每一个手机号耗费的总上行流量、下行流量、总流量
一、需求根据数据日志统计每一个手机号耗费的总上行流量、下行流量、总流量二、数据1、输入数据1 13736230513 192.196.100.1 www.atguigu.com 2481 24681 2002 13846544121 192.196.100.2 ...原创 2020-01-31 17:17:37 · 2907 阅读 · 0 评论 -
idea下MAVEN+Hadoop+实现HDFS基本操作
环境操作系统win10,jdk1.8,maven3.x,hadoop2.7.7,idea软件一、使用idea创建一个Maven项目普通的maven项目即可输入一些信息如下:这就是一个maven项目pom.xml文件内容如下:<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.a...原创 2020-01-31 13:47:05 · 3438 阅读 · 0 评论 -
记录以下出现:java.io.IOException: (null) entry in command string: null ls -F E:\file\a.txt 情况怎么办?
记录以下出现:Error while running command to get file permissions : java.io.IOException: (null) entry in command string: null ls -F E:\file\a.txt情况怎么办?原来这样写的解决办法尝试着把路径补全file:///E:/file/a.txt file:///...原创 2020-01-31 12:10:25 · 3210 阅读 · 0 评论 -
Hadoop-完全分布式配置-集群配置
本文是根据尚硅谷的视频教学,然后加上自己理解总结的。配置hdfs和yarn如下:所有的配置文件都在/opt/module/hadoop-2.7.7/etc/hadoop目录下。[root@hadoop102 hadoop]# [root@hadoop102 hadoop]# pwd/opt/module/hadoop-2.7.7/etc/hadoop[root@hadoop102 h...原创 2020-01-30 13:39:54 · 1037 阅读 · 1 评论 -
配置Linux集群时间同步(ntp)
环境:现在有三台centos7的虚拟机,分别是hadoop102,hadoop103,hadoop104。现在在hadoop102上配置ntp服务(中心服务器),hadoop103和104分别拉取hadoop102上的时间1、查看ntp是否安装(3台都要查看和安装,并保证都不在运行,如果已经运行了,就停掉)切换至root用户如果ntp没有安装,就安装一下子[root@hadoop104 ...原创 2020-01-30 13:09:33 · 1011 阅读 · 5 评论 -
Hadoop-配置历史服务器、日志聚集功能
如果没有配置的话,会无法进行查看历史开启日志聚集功能后,会把所有的日志都聚集到一台机器上,方便了查看,出了问题,不用在去一台一台的查看日志了。首先关闭三台虚拟机上的hadoop的任何节点一、配置历史服务器hadoop102配置mapred-site.xml[zhenghui@hadoop102 hadoop]$ [zhenghui@hadoop102 hadoop]$ vim ma...原创 2020-01-30 11:07:37 · 964 阅读 · 0 评论 -
Hadoop-群集启动-集群测试wordcount
有三台Vmware中创建的Centos7虚拟机.Hadoop102,Hadoop103,Hadoop104Hadoop102默认的将三台从机都写进去在hadoop102上启动start-dfs.sh测试在hadoop2上传文件测试可以看到已经上传成功了跑一下wordcount测试[zhenghui@hadoop102 hadoop-2.7.7]$ hadoop...原创 2020-01-30 10:23:49 · 740 阅读 · 0 评论 -
Centos7配置SSH免密
分别有Hadoop102,Hadoop103,Hadoop104三台Centos7的操作系统Hadoop102:[zhenghui@hadoop102 ~]$ ssh-keygen -t rsaGenerating public/private rsa key pair.Enter file in which to save the key (/home/zhenghui/.ssh/id_...原创 2020-01-30 09:45:06 · 855 阅读 · 0 评论 -
Linux-批量传输文件脚本
cp source destinationcp -r /abc /def//把远程Hadoop101上的/opt/module拷贝到Hadoop102相同的位置scp -r hadoop101:/opt/module/hadoop-2.7.7 hadoop102:/opt/module[zhenghui@hadoop101 ~]$ scp -r root@hadoop101:/op...原创 2020-01-29 19:41:17 · 2218 阅读 · 0 评论 -
Hadoop-伪分布式搭建
伪分布式就是单节点的第一步:配置相关的文件编辑hdfs-site.xml[zhenghui@hadoop101 ~]$ cd /opt/module/hadoop-2.7.7/[zhenghui@hadoop101 hadoop-2.7.7]$ [zhenghui@hadoop101 hadoop-2.7.7]$ vi etc/hadoop/hdfs-site.xml [zhenghu...原创 2020-01-28 19:12:12 · 756 阅读 · 0 评论 -
大数据之数据清洗之爬取数据后如何根据地名或者公司名获取经纬度信息-地址逆解析经纬度
关于本文章说明:本文章的想法来源于:爬了大量的数据后,想利用GIS技术把数据展示在地图上。但是爬的数据又没有经纬度坐标,就无法在地图上进行展示了,所以用了百度地图的正/逆地理编码。计算机行业招聘智能分析平台效果先看下我们团队爬的数据如下图:处理后的数据:数据处理的流程:上图就是处理后的数据结果。清洗思路:思想:因为我有公司名称、省份或市、区或县三个字段的数据。直接...原创 2020-01-01 21:59:47 · 4738 阅读 · 15 评论 -
Hadoop分块存储解析及还原分块存储的文件
问题行动我们来到下面这个hadoop安装的目录下[root@hadoop102 subdir0]# pwd/opt/module/hadoop-2.7.7/data/tmp/dfs/data/current/BP-1961147429-192.168.1.102-1570287343868/current/finalized/subdir0/subdir0[root@hadoop...原创 2019-10-06 13:38:07 · 1104 阅读 · 0 评论 -
解决Hadoop在浏览器中Browse Directory,无法下载文件的问题
解决办法把你linux中的hosts文件中的映射数据,复制到windows下的hosts中解决了原创 2019-10-03 18:22:19 · 8476 阅读 · 4 评论 -
Hadoop入门---(wordcount)统计单词出现的次数
wordcount1、创建输入文件目录在hadoop安装目录下创建wcinput目录,如我的安装目录是:/opt/module/hadoop-2.7.7[root@hadoop101 hadoop-2.7.7]# pwd/opt/module/hadoop-2.7.7[root@hadoop101 hadoop-2.7.7]# [root@hadoop101 hadoop-2.7.7]...原创 2019-10-03 12:52:06 · 1384 阅读 · 0 评论 -
linux(Centos7)-使用Vmware安装Centos7
一、准备材料1、准备镜像(下载,或者使用自己有的镜像)官网下载https://www.centos.org选择Get CentOS Now选择DVD ISO选择一个顺眼的镜像下载站进行下载下载好的iso文件2、准备VMware虚拟机可自行百度下载,或者参考:https://www.cr173.com/soft/68480.html进行下载二、创建虚拟机直接点击主页...原创 2019-09-17 21:29:27 · 1311 阅读 · 6 评论