大数据
love666666shen
Golang、Python、Java、Scala学习者,对Golang、大数据领域、深度学习等方面的知识比较感兴趣,志同道合的博友可以多多交流、相互学习、每天进步一点点!!!
展开
-
Python结合hdfs模块操作HDFS分布式文件系统
使用python操作hdfs本身并不难,只不过是把对应的shell 功能“翻译”成高级语言,我这里选用的是hdfs,下边的实例都是基于hdfs包进行的。1:安装由于我的是windows环境(linux其实也一样),只要有pip或者setup_install安装起来都是很方便的?1pip install hdfs转载 2017-10-17 15:48:24 · 10437 阅读 · 3 评论 -
可视化开源ETL工具——kettle
1 简介Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。Kettle这个ETL工具集,它允许管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做。Kettle...原创 2019-12-30 11:45:53 · 3445 阅读 · 0 评论 -
HBase存储、插入、修改、读取图片操作
hbase解决海量图片存储:https://blog.csdn.net/u010670689/article/details/33737989hbase存取照片:https://blog.csdn.net/BD_AI_IoT/article/details/78302568HBase插入和读取图片:https://blog.csdn.net/login_sonata/article/detai...转载 2018-10-03 15:02:33 · 7697 阅读 · 3 评论 -
这些数据获取方式,一般人不知道
在这个用数据说话的时代,能够打动人的往往是用数据说话的理性分析,无论是对于混迹职场的小年轻,还是需要数据进行分析和研究的同学,能够找到合适的数据源都是非常重要的。特别是想要对一个新的领域进行研究和探索,拥有这个领域的数据那都是有十分重要的意义的。在这里给大家推荐一些能够用上数据获取方式,有了这些资源,不仅可以在数据收集的效率上能够得到很大的提升,同时也可以学习更多思维方式。转载 2017-08-21 09:37:33 · 1976 阅读 · 0 评论 -
解Windows系统下运行hadoop、spark程序出错Could not locate executablenull\bin\winutils.exe in the Hadoop binaries
最近使用scala编写程序,在Windows系统下调试,对远程服务器上的hbase和hive中的表进行相应的操作,运行时报错Failed to locate the winutils binary in the hadoop binary path java.io.IOException: Could not locate executablenull\bin\winutils.exe原创 2017-12-15 15:47:55 · 43308 阅读 · 11 评论 -
hdfs基本操作-python接口
hdfs操作手册hdfscli 命令行12345678910111213141516171819202122232425262728转载 2017-09-29 15:19:26 · 6246 阅读 · 0 评论 -
VMware虚拟机NAT模式连不上网,无法启动VMware DHCP Service 服务
我的虚拟机总是各种连不上网,每次都要折腾一番。现在我把虚拟机连不上网的原因总体排查一下,按照流程一步步来,基本上可以解决大部分人的问题。首先,在VMware的编辑->虚拟网络编辑器重新建立NAT网络(之前的要删掉,新建的同样选择VMnet8就可以)。如果还不能上网,在windows的服务里面,看一下确保这三项已经打开,如果服务处于停止状态重新开启并且设置原创 2017-09-25 17:56:34 · 34764 阅读 · 6 评论 -
[Hadoop]HDFS shell命令
参考自:http://hadoop.apache.org/docs/r2.7.1/hadoop-project-dist/hadoop-common/FileSystemShell.html#appendToFilehadoop 版本号:2.7.1本文是根据官网提供的文档,笔者自己写的总结,涵盖了HDFS shell的所有命令。水平有限,错误在所难免。欢迎批评指正。(1)-转载 2017-09-26 17:46:49 · 1174 阅读 · 0 评论 -
【Hadoop】HDFS的运行原理
简介HDFS(Hadoop Distributed File System )Hadoop分布式文件系统。是根据google发表的论文翻版的。论文为GFS(Google File System)Google 文件系统(中文,英文)。HDFS有很多特点: ① 保存多个副本,且提供容错机制,副本丢失或宕机自动恢复。默认存3份。 ② 运行在廉价的机器上。转载 2017-09-18 17:24:55 · 445 阅读 · 0 评论 -
Scala初学之——值和变量的声明
Scala有两种类型的变量,一种是val,是不可变的,在声明时就必须被初始化,而且初始化以后就不能再赋值;另一种是var,是可变的,声明的时候需要进行初始化,初始化以后还可以再次对其赋值。原创 2017-07-05 15:20:59 · 1843 阅读 · 0 评论 -
hadoop伪分布式下 无法启动datanode的原因及解决办法
是由于多次format namenode节点导致 namdenode 的 namespaceID 与 datanode的namespaceID 不一致,从而导致namenode和 datanode的断连。(因为在多次format中 有 reformat namenode的提示,多次format中不用已知都选Y 去format namenode的 namespaceID ,这样很容易造成ID不一致的情况)原创 2017-07-04 18:28:02 · 28734 阅读 · 7 评论 -
使用Eclipse编译运行MapReduce程序_Hadoop2.6.0_Ubuntu/CentOS
本教程介绍的是如何在 Ubuntu/CentOS 中使用 Eclipse 来开发 MapReduce 程序,在 Hadoop 2.6.0 下验证通过。虽然我们可以使用命令行编译打包运行自己的MapReduce程序,但毕竟编写代码不方便。使用 Eclipse,我们可以直接对 HDFS 中的文件进行操作,可以直接运行代码,省去许多繁琐的命令。转载 2017-06-23 17:37:09 · 634 阅读 · 1 评论 -
Spark 2.0分布式集群环境搭建
Apache Spark 是一个新兴的大数据处理通用引擎,提供了分布式的内存抽象。Spark 最大的特点就是快,可比 Hadoop MapReduce 的处理速度快 100 倍。本文没有使用一台电脑上构建多个虚拟机的方法来模拟集群,而是使用三台电脑来搭建一个小型分布式集群环境安装。本教程采用Spark2.0以上版本(比如Spark2.0.2、Spark2.1.0等)搭建集群,同样适用于搭建Spark1.6.2集群。转载 2017-06-23 17:36:39 · 3552 阅读 · 1 评论 -
Hadoop集群安装配置教程_Hadoop2.6.0_Ubuntu/CentOS
本教程适合于原生 Hadoop 2,包括 Hadoop 2.6.0, Hadoop 2.7.1 等版本,主要参考了官方安装教程,步骤详细,辅以适当说明,按照步骤来,都能顺利安装并运行 Hadoop。另外有Hadoop安装配置简略版方便有基础的读者快速完成安装。转载 2017-06-23 17:35:32 · 473 阅读 · 0 评论 -
Hadoop安装教程_伪分布式配置_CentOS6.4/Hadoop2.6.0
本教程适合于在 CentOS 6.x 系统中安装原生 Hadoop 2,适用于Hadoop 2.7.1, Hadoop 2.6.0 等版本,主要参考了官方安装教程,步骤详细,辅以适当说明,相信按照步骤来,都能顺利在 CentOS 中安装并运行 Hadoop。转载 2017-06-23 17:34:01 · 663 阅读 · 0 评论