![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
一撇带一点
这个作者很懒,什么都没留下…
展开
-
MapReduce数据清洗之日期类型的数据
首先就是上题目这里的需要处理的源数据,有一个日期类型的数据和Sring类型的数据,这里的题目要求是让我们用日期函数来处理源数据得到以下的数据首先就是你得清楚。这个Date类和Calendar他们究竟是谁,他有什么用,到底该怎么用,这里我在这里就不诉说了,不会的可以去查查其他大佬关于这两个类介绍的文章在进行代码书写之前我先是要介绍一下我这里解决这个问题的思路吧,我解决这个问题的思路,就是先将源数据转化为数组,然后我读取源数据的日期这边的数据,规定好读取的格式,读进来的是Date格式,然后我Date格式原创 2020-09-15 21:08:59 · 1399 阅读 · 0 评论 -
清洗实操4
题目详述这个题目的源数据还是依旧是我们清洗实操3的源数据这个和之前的所谓的清洗实操3,相比,多出了更改json格式的数据,之前我有过在更改天气格式的数据有过介绍,具体的博客是https://blog.csdn.net/qq_45683188/article/details/108606626这里的话就是将清洗实操3的思路和那个网址的博客的思路结合起来,这里还是设了个方法public Text text2(String line){ JSONObject jsonObject=原创 2020-09-15 20:29:19 · 155 阅读 · 0 评论 -
MapReduce清洗实操3
首先就是上题目首先就是看一下源数据和处理后的数据发生了那些变化,这里我们发现,就是他们日期格式发生了变化现在我们需要思考的问题就是怎么样才能让他的日期格式发生变化,首先需要明白的是,我们处理的是什么呢,是字符串类型的数据,虽然他的格式是json格式的,但是归根结底还是还是字符串String类型的数据,在String中是否有方法能够有让其发生变化呢。对String类熟悉的人都知道String类中有两个方法能够实现字符的替换,replace和replaceAll方法,不知道给我查api啊replace方原创 2020-09-15 20:11:51 · 276 阅读 · 0 评论 -
MapReduce规定天气数据并其输出4
紧接上一篇内容上一篇我们在map阶段所使用的思路是用JsonObject中的getStirng的方法,然后得到了他们对应的值,然后我们用再用Stringbuffer这个类的一些功能,使用循环,然后让这些获得的字符串,然后进行拼接,最后得到指定数据现在让我们尝试换种思路,就是我们不用StringBuffer的方法,我们直接就是用String字符串的相加要想实现这个思路,我们肯定是要借助我们的for循环来实现字符串的拼接,这里有个问题就是你的循环的主体是谁,这时候就要考虑,我们取出开的是什么,每一个jso原创 2020-09-15 19:31:06 · 120 阅读 · 0 评论 -
MapReduce的另一实例,给天气预报数据规范格式并且输出3
这里主要还是讲解之前说的问题的第二个思路,上一个思路主要是将json格式的数据转化为了map的形式,然后重写map中的toString方法,规范他们的输出格式这就相当于是一个间接的方法,当然在此时我们就得想想,有没有什么直接的思路和方法,对于这个问题而言就是如果我们用直接的思路,无非就是化繁为简,所谓的化繁为简及我这里就是给他的转换。将陌生的转化为我们熟悉的,在熟悉的领域中解决问题json格式的数据,我们是比较陌生的,作为一个小白而言,这个确实是比较陌生的,但是我们熟悉的是什么呢,是字符串,所以这里就是原创 2020-09-10 18:18:06 · 175 阅读 · 0 评论 -
MapReduce的另一实例,给天气预报数据规范格式并且输出2
在我的上一篇博客中,我是将一个天气数据处理为了一个json格式的数据具体的博客内容如下https://blog.csdn.net/qq_45683188/article/details/108415084那我们想一想,能不能就是我们再把json格式的数据转化为普通类型的数据,听起来还是比较让人感到这样是不是有病啊,为什么不用原来的数据,偏要转过来又转过去,对于开发而言,这样做确实有病,但是对于我们这些正在学习的海洋里学习的小白来说,更能掌握一个新的知识,好了废话少说,上正菜了对于这个将json格式转原创 2020-09-07 18:23:54 · 260 阅读 · 0 评论 -
MapReduce中文乱码的情况的妥善解决
对于MapReduce处理来说,都是处理本机或者服务器里面的文件,源文件的编码可能是gbk或者是其他但是对于hadoop而言,他将编码给规范死了,就是utf-8,这个时候我么就需要进行编码之间的转换了具体怎么做呢加上一下这行代码, String line = new String(value.getBytes(),0,value.getLength(),“GBK”);这行代码的就是将你的读进来的数据都用gbk的编码读进来,然后就是在map方法中转化为utf-8的格式,这里需要注意的是你这行代码原创 2020-09-05 10:36:12 · 646 阅读 · 0 评论 -
MapReduce的另一实例,给天气预报数据规范格式并且输出
题目如图所示具体处理的数据如下之前我写过一个MapReduce的词频统计实例https://blog.csdn.net/qq_45683188/article/details/108365335没有印象的朋友请看搜上面网址词频统计的思路是在map阶段,将你的单词一个个的按照空格分开然后形成hello-1和word-1的这样的形式,然后我们redece阶段再把它给加起来,这是一个大致的词频统计的思路到了这个案例呢,我们发现,他并不是没有将数据相加,而是将这行数据进行处理,形成格式上的改变,相原创 2020-09-05 10:18:12 · 332 阅读 · 0 评论 -
MapReduce的代码中关于Hadoop常见的错误
MapReduce的完整运行是要靠Hadoop的正确安装的接下来就是简单的介绍一下我在编写MapReduce程序的时候遇见的关于hadoop的错误首先就是安装的问题,安装的话,这个就是注意你的配置环境变量问题如果你的环境变量存在问题他就可能会报Failed to locate the winutils binary in the hadoop binary path这样的错误这里的话,引进一个大佬的文章,教你如何完美的解决这个问题https://blog.csdn.net/abc50319/a原创 2020-09-03 20:24:55 · 302 阅读 · 0 评论 -
MaReduce阶段如何解决Output directory already exists错误
在MapReduce的程序中,如果我们要是想要在本地运行。我们是要设置输出和输入路径的,对于输出路径而言,这个是相对于输入路径而言还是比较讲究的,首先这个路径得是个文件夹,而且这个文件夹里面是不能有任何东西的,只要是存在一个东西都会直接报错import java.io.IOException;public class Driver { public static void main(String[] args) {//设置输入和输出的路径 args=new Str原创 2020-09-03 19:40:09 · 977 阅读 · 0 评论 -
MapReduce实例,词频统计,如何在idea上运行,并且能再本地测试
词频统计,作为大数据中数据分析的一个基本代码现在在csdn中大部分的文章都是说如何用eclipse写的代码,而且绝大部分都没有如何介绍在本地运行,都是放在服务器运行,作为一个刚接触数据分析的萌新,而且对idea有着很深的执念的我而言,写这个简单的小程序,还想让这个程序能够在本地上运行,在写的时候就是困难很多废话少说了,现在正是进入主题我这里介绍的主要是用idea的maven来进行写词频统计,利用maven主要是为了帮助我们下需要用的jar包,这样就不用我们费心去找jar包了,而且找错了,也是件非常.原创 2020-09-03 18:58:17 · 2753 阅读 · 2 评论