- 博客(6)
- 资源 (1)
- 收藏
- 关注
原创 hadoop SequenceFile 简介/优缺点
1. 什么是SequenceFile1.1.sequenceFile文件是Hadoop用来存储二进制形式的[Key,Value]对而设计的一种平面文件(Flat File)。1.2.可以把SequenceFile当做是一个容器,把所有的文件打包到SequenceFile类中可以高效的对小文件进行存储和处理。1.3.SequenceFile文件并不按照其存储的Key进行排序存储,Sequenc...
2018-09-27 11:05:53 10330 2
原创 处理海量小文件——本地文件读成sequenceFile文件
个人观点:当处理海量小文件时,先将小文件进行sequenceFile操作或者类似操作处理,然后再上传到HDFS系统进行下一步的处理。(如有其它建议,欢迎留言)一、直接上传本地栅格数据将导致的问题根据栅格数据的特点,每层的图片个数都为上层数量的四倍。在第20层时,仅仅第20层的图片的数量达到了“2199023255552”张(世界地图在第一层被切成了两张图片,第二十层的数量为:4**7*2),且...
2018-09-27 08:34:54 1060
原创 Maven学习
Apache Maven 是一种创新的软件项目管理工具,提供了一个项目对象模型(POM)文件的新概念来管理项目的构建,相关性和文档。最强大的功能就是能够自动下载项目依赖库学习资料:https://www.yiibai.com/maven/...
2018-09-25 17:33:35 132
原创 近期读书计划(2018.9.11~)
买了几本书,其实大多我都有电子版的,只是这几本书都算得上经典(特别是那两本O’Reilly,其实好多时候学了好多东西,编程细节经常容易遗忘,实际开发中还是手边有个几本知识比较系统的手册书翻查一下合适)《Spark SQL内核剖析》是刚刚上市的,但是翻看了下目录,感觉确实值得读一下,毕竟大数据这块只搞点应用级的代码没啥意思,还是的深入到内核、架构,书评随后写《算法图解》这块之所以看,是因...
2018-09-11 11:32:42 383
原创 coursera——Image and Video Processing
最近一直在刷coursera上的Image and Video Processing(https://www.coursera.org/learn/image-processing/home/welcome),收获还可以,主要是掌握了图像的一些去噪、修复、边缘分割思想,最重要的启发主要还是把图像从二维数组从另一个角度去看:三维几何体(三维:x、y坐标+Z:gray值),进而可以使用一系列的立体几何...
2018-09-10 15:47:07 1003
原创 Coursera : Image and Video Processing学习笔记
之前软件杯做OCR识别,图片预处理比较的难搞的情况就是,那种在光照不均匀的环境(或者闪光灯)下导致图像呈现由光照中心由亮变暗的亮度不均匀图像的处理办法,使用基于滑动窗口的局部二值化...
2018-09-08 11:41:58 621
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人