- 博客(52)
- 资源 (2)
- 收藏
- 关注
转载 MapReduce计数器--详解
1、MapReduce计数器是什么? 计数器是用来记录job的执行进度和状态的。它的作用可以理解为日志。我们可以在程序的某个位置插入计数器,记录数据或者进度的变化情况。2、MapReduce计数器能做什么? MapReduce 计数器(Counter)为我们提供一个窗口,用于观察 MapReduce Job 运行期的各种细节数据。对MapReduce性能调优很有帮助,MapRedu...
2018-11-12 21:03:51
639
原创 hadoop web日志预处理
web日志预处理1、需求:对web访问日志中的各字段识别切分去除日志中不合法的记录根据需求,生成各类访问请求过滤数据 2、实现代码:1.定义一个bean,用来记录日志数据中的各数据字段public class WebLogBean { private String remote_addr;// 记录客户端的ip地址 private String...
2018-11-09 21:52:21
556
转载 字节流和字符流的区别--详解
字节流与和字符流的使用非常相似,两者除了操作代码上的不同之外,是否还有其他的不同呢?实际上字节流在操作时本身不会用到缓冲区(内存),是文件本身直接操作的,而字符流在操作时使用了缓冲区,通过缓冲区再操作文件,如图12-6所示。下面以两个写文件的操作为主进行比较,但是在操作时字节流和字符流的操作完成之后都不关闭输出流。范例:使用字节流不关闭执行Java代码 收藏代码package...
2018-11-09 10:25:41
378
转载 InputStream 、 InputStreamReader 、 BufferedReader区别
1.InputStream、OutputStream处理字节流的抽象类InputStream 是字节输入流的所有类的超类,一般我们使用它的子类,如FileInputStream等.OutputStream是字节输出流的所有类的超类,一般我们使用它的子类,如FileOutputStream等.2.InputStreamReader OutputStreamWriter处理字符流...
2018-11-08 21:24:41
312
转载 csdn博客积分
博客积分是CSDN对用户努力的认可和奖励,也是衡量博客水平的重要标准。博客等级也将由博客积分唯一决定。积分规则具体如下: 1、每发布一篇原创或者翻译文章:可获得10分; 2、每发布一篇转载文章:可获得2分; 3、博主的文章每被评论一次:可获得1分; 4、每发表一次评论:可获得1分(自己给自己评论、博主回复评论不获得积分); 5、博文阅读次数每超过100...
2018-11-08 21:08:09
206
原创 IDEA打jar包---截图详解
点击左上角File-->Project Structure进入界面后点击Artifacts点击“+“号之后点击jar-->>Empty选择完Empty后,会新建一个Artifact,名字是自动生成的,1处可以修改名字,2处可以修改导出的路径,3必须要勾选双击右面的你需要的jar依赖包,他就会添加到左边1处。完成之后点击OKArtif...
2018-11-08 15:44:20
648
原创 xshell绝佳配色
xshell的主题颜色配置,主要是以暗色为主。下图有样式首先: 复制这一段代码,保存到一个txt文件中,之后改名为 : song.xcs(名字自己起,但是后缀名不能改)[song]text=839496cyan(bold)=50ebfctext(bold)=ffffffmagenta=7b5175green=008000green(bold)=1cc470backgr...
2018-10-21 19:16:40
2419
原创 hadoop元数据管理机制
元数据管理依靠的就是Secondary namenode的工作机制首先namenode对数据的管理采用三种存储形式:内存元数据(NameSystem)磁盘元数据镜像文件(fsimage)数据操作日志文件(edits) 要想了解hadoop如何管理元数据的,就要先知道fsimage和edits是什么。(1)、fsimage文件其实是Hadoop文件系统元数据的一个永...
2018-10-16 21:19:16
825
原创 HDFS常用命令参数
-ls [-C] [-d] [-h] [-q] [-R] [-t] [-S] [-r] [-u] [<path> 功能:显示目录信息 示例:hadoop fs -ls hdfs://hadoop-server1:9000/ --->hadoop fs -ls / 效果相同 -mkdir ...
2018-10-14 10:58:36
1785
原创 zookeeper一键启动脚本
当你每次开启zookeeper需要每一台机器上输入命令,实在是很繁琐配置zookeeper启动脚本的前提是hadoop集群配置完成,因为配置集群中会修改/etc/hosts文件,此shell脚本中会用到修改后的主机名1.创建zkstart.sh脚本:vi zkstart.sh在哪创建都一样,我的是放在了zookeeper的bin目录下,记得配置好环境变量2.脚本内容:...
2018-10-13 11:01:59
2098
1
原创 大数据工程师
经常感觉没有什么目标,于是就百度汇总了一下可以学习的东西,比较全面了,包括数据分析与可视化,机器学习可以根据自己的喜好来选择大数据通用处理平台:1. Spark 2. Flink 3. Hadoop分布式存储:HDFS资源调度: Yarn Mesos机器学习工具: Mahout 1. Spark Mlib 2. TensorFlow (Google 系) 3. Am...
2018-10-11 10:39:42
1144
转载 Python爬虫学习路线&总结
今天看到了一篇很好的文章和大家分享一下,自己以前也是学了一段时间Python爬虫。感觉这篇文章写得很好原创作者知乎:https://www.zhihu.com/people/sgai/posts?page=8里面有很多好的文章Python学习总结目录Python总结 1前言 2(一)如何学习Python 2(二)一些Python免费课程推荐 3(三)Python...
2018-10-11 10:30:28
3031
1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅