HDFS
Jackie_ZHF
日日新 苟日新 又日新
展开
-
HDFS分布式文件系统特征block底层
HDFS分布式文件系统特征block底层转载注明出处: http://blog.csdn.net/jackie_zhf/article/details/79467624众多分布式文件系统为什么用HDFS? a、可以移动计算到数据所在节点; b、就近读取数据文件和计算 Look 代码: private static void blk() throws Exception { ...原创 2018-03-07 10:33:16 · 500 阅读 · 0 评论 -
HDFS配置参数及优化之实战经验(Linux hdfs)
HDFS优化之实战经验 Linux系统优化一、禁止文件系统记录时间 Linux文件系统会记录文件创建、修改和访问操作的时间信息,这在读写操作频繁的应用中将带来不小的性能损失。在挂载文件系统时设置noatime和nodiratime可禁止文件系统记录文件和目录的访问时间,这对HDFS这种读取操作频繁的系统来说,可以节约一笔可观的开销。可以修改/etc/fstab文件中...原创 2018-02-25 15:18:08 · 2394 阅读 · 0 评论 -
HDFS完全分布式搭建
HDFS完全分布式搭建[Hadoop1.X]一、环境准备【如果没有准备好 请查阅然后准备以下环境】1、 JDK (前面已经安装好了)2、 Linux(前面已经安装好了)3、 准备至少3台机器,我们用的是4台(通过克隆虚拟机;配置好网络JDK 时间 hosts,保证节点间能互ping通)4、 时间同步 (ntpdate time.nist.gov)5、 ssh免秘钥登录 (两两互通免秘钥)二、...原创 2018-02-25 15:38:24 · 339 阅读 · 0 评论 -
Python Hadoop的Wordcount入门示例
Hadoop 框架是使用Java编写的但是我们仍然需要使用像C++、Python等语言来实现 Hadoop程序。尽管Hadoop官方网站给的示例程序是使用Jython编写并打包成Jar文件,这样显然造成了不便,其实,不一定非要这样来实现,我们可以使用Python与Hadoop 关联进行编程,看看位于/src/examples/python/WordCount.py 的例子。我们将...原创 2018-05-29 10:16:33 · 2384 阅读 · 0 评论 -
Hadoop2.x搭建部署
Hadoop2.X HA搭建四台机器:hadoop1,hadoop2,hadoop3,hadoop4 NN DN ZK ZKFC JN RM NM(任务管理) Hadoop1 Y Y Y Hadoop2 Y Y Y Y Y Y Y Hadoop3 Y Y Y Y Hadoop4 Y Y ...原创 2018-07-10 19:27:29 · 328 阅读 · 0 评论 -
hive 处理 json数据
两种方式1、将json以字符串的方式整个入Hive表,然后通过使用UDF函数解析已经导入到hive中的数据,比如使用LATERAL VIEW json_tuple的方法,获取所需要的列名。2、在导入之前将json拆成各个字段,导入Hive表的数据是已经解析过得。这将需要使用第三方的SerDe。测试数据测试数据为新浪微博的评论数据,格式如下:{ "appCode": "weibo...转载 2019-06-13 18:34:57 · 430 阅读 · 0 评论