别信我在说谎-CSDN博客

原创 Hadoop实战之MapReduce_02(idea远程提交MapReduce任务)

文章目录python运行简单的 MapReduce之 word countjava运行之idea远程提交任务到hadoop集群java 项目远程提交方式demo的github地址python运行简单的 MapReduce之 word count这里python运行就直接在虚机上编写脚本运行测试准备一份文档 word.txt 任意内容a b c d e ab ab ab abb ac kk kk 1232233243434331231111准备执行脚本(类似于 java中

2020-05-15 23:19:39 1071 1

原创 Hadoop实战之MapReduce_01

什么是MapReduceMapReduce是一个用于处理海量数据的分布式计算框架，这个框架解决了数据分布式存储(数据存在HDFS上)作业调度机器间通信容错MapReduce使用分治方式(分解，求解，合并)，通过Map切分，Reduce合并进行数据处理,如图理解上面这幅图非常重要，普遍情况下，大部分开发人员进行MapReduce开发任务时，只需要关注灰色部分。运行MapReduce程序时，首先将需要处理的数据上传至HDFS，通过HDFS交给InputForMat进行切分，通

2020-05-15 23:14:05 251

原创 JVM系列_01_JAVA内存区域

文章目录运行时数据区域线程私有程序计数器Java虚拟机栈本地方法栈线程共享Java堆方法区运行时常量池直接内存运行时数据区域Java虚拟机在执行Java程序的过程中会把它所管理的内存划分为若干个不同的数据区域，根据Java虚拟机规范的规定，Java虚拟机所管理的内存将会包括以下几个运行时数据区域,如图 (引用自深入理解Java虚拟机-周志明)，其中线程计数器，Java虚拟机栈，本地方法栈是线程私有的，堆，方法区，运行常量池，直接内存是线程共享的。线程私有程序计数器程序计数器是一个较小的内存

2020-05-15 23:08:54 222

原创 linux基本操作 1

linux 常见命令 ctrl + d 键盘输入结束或者退出终端 ctrl + s 暂定当前程序，按任意键恢复 ctrl + z 将当前程序放入后台执行 fg 恢复放入后台的程序到前台 ctrl + a 到当前行首，相当于home ctrl + e 到当前行尾，相当于end ctrl + k 删除从光标尾到行末

2017-12-15 16:08:17 310

原创数据结构小结 1

对几个常见的线性数据结构做一个简单的分析和自定义的实现1.顺序表按照顺序存储方式存储的线性表，在计算机的一组连续的存储单元中，因此在查找的时候由于地址连续性，cpu寻址时是按照顺序往下，这样在寻找时会非常迅速，这就导致了顺序存储方式的查找非常高效。同时，由于地址连续性，在中间删除或者增加一个节点时，会影响到后面节点在物理内存中的地址都要往前或往后移动，因此当插入或删除时效率较低，而且随操作影响的节点

2017-12-15 14:53:05 248

原创 python第一章基础入门以及一些简单实例

python第一章基础入门以及一些简单实例python是一种脚本语言，常见的脚本语言有Python、JavaScript、VBScript、Perl、PHP、Ruby等。区别于Java，C等非脚本语言的编写—编译—链接—运行。 python文件是以 .py 结尾在Linux中运行pythonLinux系统中自带有Python，这里现在Linux终端中进行Python的基本学习1.创建第一个pyt

2017-11-30 22:54:56 640

原创大数据学习第二章 hadoop集群的部署

大数据第二章 hadoop集群部署

2017-11-29 15:51:42 1086

原创大数据学习第一章 linux环境的安装配置

大数据学习之Linux系统的安装配置

2017-11-29 15:46:18 666

No_Title