
大数据
文章平均质量分 71
大数据
redrose2100
Python开发工程师/DevOps工程师/测试开发工程师
展开
-
Hadoop(4)-Python借助pyhdfs对Hadoop的HDFS分布式文件系统的全部操作详细实例演示
1、安装执行如下命令即可安装pip install pyhdfs2、pyhdfs与HDFS常用的交互操作在HDFS上指定目录下创建一个文件夹,然后查看此文件夹是否存在import pyhdfsif __name__=="__main__": fs=pyhdfs.HdfsClient(hosts="192.168.1.204:50070",user_name="root") fs.mkdirs("/test_01") file_or_dirs=fs.listdir(原创 2021-06-15 19:38:39 · 4783 阅读 · 3 评论 -
Hadoop(3)-Hadoop-3.3.0单机版安装步骤
1、环境准备首先需要准备一台虚拟机,比如这里使用centos系统修改主机名:vi /etc/hostname,比如这里设置主机名为hadoopvi /etc/hosts 设置主机名和ip的映射关系reboot 重启,使得主机名修改生效,重启后执行hostname 可以发现已经生效检查sshd服务是否已经启动,如下,表示已经启动OK检查jdk以及对应环境变量是否已经OK,如下表示均已经配置OK通过 cat /etc/profile 命令可以查看jdk相关的环境变原创 2021-06-15 18:20:45 · 3814 阅读 · 1 评论 -
Hadoop(2)-Hadoop简介
1、Hadoop是什么?Hadoop是一个有Apache基金会所开发的分布式系统基础架构Hadoop主要解决两个问题:海量数据的存储和海量数据的分析计算问题广义上来说,Hadoop通常是指一个更广泛的概念-Hadoop生态圈2、Hadoop发展历史Hadoop的创始人Doug Cutting,为了实现与Google类似的全文搜索功能,他在Lucene框架基础上进行优化升级,查询引擎和索引搜索2001年年底,Lucene成为Apache基金会的一个子项目对于海量数据的场景,Lucene框原创 2021-06-10 12:57:52 · 534 阅读 · 1 评论 -
Hadoop(1)-大数据简介
1、大数据的概念大数据:指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力,洞察发现力和流程优化能力的海量,曾浪率和多样化的信息资产计算机最小的单位是bit,按顺序给出所有单位:bit,Byte,KB,MB,GB,TB,PB,EB,ZB,YB,BB,NB,DB,他们之间的比率是10242、大数据的特点:Volume:大量Velocity:高速Variety:多样Value:低价值密度3、大数据的应用O2O零售商品广告推荐原创 2021-06-09 23:28:44 · 348 阅读 · 2 评论