hadoop
hadoop自学
Joker-Tong
深度学习learning中
展开
-
VMware Tools的安装配置
VMware Tools的安装配置虚拟机>安装VMware Tools几秒后,我们会发现桌面多了个光碟双击打开其中的文件 VMwareTools-10.3.10-13959562.tar.gz将其拖入主目录上述的步骤也可以通过tar命令来解压打开终端,运行 vmware tools如下图,按步骤完成安装 基本上为 yes和回车...原创 2020-05-18 22:18:25 · 411 阅读 · 0 评论 -
Spark编程入门
Spark编程入门Scala编程 (一) 第一个scala程序Scala编程 (二) 基本语法Scala编程 (三)面向对象编程基础Scala编程 (四)函数式编程基础Spark编程(一) RDD编程原创 2021-01-12 11:16:35 · 217 阅读 · 0 评论 -
ImportError: cannot import name ‘sysconfig’
ImportError: cannot import name 'sysconfig’1.卸载sudo apt-get remove python3-pip2.换源sudo vim /etc/apt/sources.list加粗样式 deb http://mirrors.aliyun.com/ubuntu/ bionic main restricted universe multiverse deb http://mirrors.aliyun.com/ubuntu/ bion原创 2020-12-03 19:40:36 · 844 阅读 · 0 评论 -
Hbase中文乱码 使用python恢复为中文显示(pyspark+hbase)
Hbase中文乱码 使用python恢复为中文显示(pyspark+hbase)如下是在Hbase-Shell中查询到的前两条数据关于从pyspark读取hbase的操作可以在我的另一篇文章中查看下面仅仅给出转换字符串的方法def to_utf8(string): string = string.encode().decode('unicode-escape') new_string = string.encode('raw_unicode_escape') chines原创 2020-11-26 22:28:31 · 974 阅读 · 0 评论 -
hive启动报错 SSL. (jdbc-type=““, sql-type=““) 解决办法
hive启动报错 SSL. (jdbc-type="", sql-type="") 解决办法一、报错中出现SSLcd /usr/local/hive/confvim hive-site.xml增加&useSSL=false二、报错中出现(jdbc-type="", sql-type="")The java type java.lang.Integer (jdbc-type="", sql-type="") cant be mapped for this datastor原创 2020-11-25 16:14:29 · 695 阅读 · 0 评论 -
pyspark基础案例(词频统计)解析
大数据工程实践教程(pyspark测试)WordCount回顾前言与Hello World同样经典,Spark的回顾将从WordCount开始关于WordCount有关的实验已经不知道做过(抄过)n次了本次回顾就剖析一下他的流程与各个函数的作用并且测试一下Pycharm与pyspark是否可用算子简单的介绍一下用到的算子,也就三个flatMap,map,reduceByKey网上很多相关的详解,我的能力不够就不照猫画虎了Spark常用算子详解词频统计对于要统计的txt文件我们的思原创 2020-11-19 23:33:34 · 1910 阅读 · 0 评论 -
Hadoop大数据平台(环境配置篇) 基本环境配置与组件下载
大数据工程实践教程(环境篇)相关信息必要软件安装与准备 创建新的系统用户 ssh免密钥 配置hosts 安装java 配置路径 更换apt源 安装docker(暂时用不到)单机版主要组件安装过程 mysql hadoop hbase hive spark sbt&&maven python and 3rd-party module基本准备需要准备的环境与对应的版本如下软件版本hadoop2.7.1spark1.6.2原创 2020-10-22 18:26:51 · 1110 阅读 · 0 评论 -
Ubuntu sbt(安装+换源)
ubuntu sbt(安装+换源)下载文件# 下载cd ~/下载wget https://github.com/sbt/sbt/releases/download/v1.1.4/sbt-1.1.4.tgz# 解压sudo tar -zxvf sbt-1.1.4.tgz -C /usr/local/cd /usr/local# 赋予权限sudo chown -R hadoop ./sbt/创建可执行文件cd sbtvim sbt # 这里的sbt是创建在sbt目录下的为新建的s原创 2020-10-18 23:29:43 · 3698 阅读 · 3 评论 -
Spark编程(一) RDD编程
Spark编程(一) RDD编程1.RDD创建1.1从文件系统加载数据创建RDD测试如下当前系统中存在一个文件word.txt 位置和内容如下读取成功1.2通过数组创建RDD2.RDD操作2.1 转换操作2.2 行动操作2.3 惰性机制2.4 实例filter操作找出文本文件中单行文本所包含的单词数量最大值还可以用这个语句我觉得简单一点lines.map(_.split(" ").size).max3.RDD持久化persist()方法对R原创 2020-08-13 09:39:03 · 426 阅读 · 0 评论 -
Scala编程 (四)函数式编程基础
Scala编程 (四)函数式编程基础一、函数定义和高阶函数1.函数字面量这是之前就已经学过的一些基本字面量2.函数的类型和值理解起来其实很简单, 前面的部分就是类型,后面的部分就是值这里因为只有一个参数,所以括号可以省略3.匿名函数、Lamda表达式与闭包4.占位符语法二、针对集合的操作1.遍历操作2.map操作和flatMap操作这是上面两种方法的对比结果,可以看到flatMap的方法会把结果拍散3.filter操作4.reduce操作5原创 2020-08-13 09:38:45 · 164 阅读 · 0 评论 -
Scala编程 (三)面向对象编程基础
Scala编程 (三)面向对象编程基础一、类1.简单的类2.给类增加字段和方法class Counter { private var value = 0 def increment():Unit = {value += 1} def current(): Int = {value}}Unit后面的等号和大括号后面,包含了该方法要执行的具体操作语句3.创建对象4.编译和执行5. getter和setter方法package com.tty.dongca原创 2020-08-13 09:38:27 · 247 阅读 · 0 评论 -
Hadoop 重新初始化文件系统(jps启动时缺少DataNode进程)
Hadoop 重新初始化文件系统(jps启动时缺少DataNode进程)原因对DFS文件系统多次初始化 或关闭系统前没有执行stop-dfs.sh等命令关闭hadoop造成的,此时DFS文件系统已经损坏,因此需要重新初始化文件系统.依次执行以下命令...原创 2020-07-29 21:01:11 · 1099 阅读 · 0 评论 -
Hadoop入门系列(四) HDFS的使用与编程
Hadoop入门系列(三) HDFS的使用与编程内容使用Hadoop Shell命令操作hdfs文件系统,熟悉分布式文件系统及操作命令。配置Maven及使用Maven构建的Hadoop工程项目。使用Hadoop的JAVA api操作hdfs文件系统。...原创 2020-07-29 21:00:22 · 728 阅读 · 2 评论 -
Hadoop入门系列(三) Centos7的基本配置+Hadoop的安装
Hadoop入门系列(三) Centos7的基本配置基本步骤这些基本配置是每台虚拟机刚下完都要检查的,不仅仅是为了安装hadoop而做准备,用于其他方面也一样VMware Tools的安装原创 2020-07-29 20:59:55 · 552 阅读 · 0 评论 -
Hadoop入门系列(二) VMware中Centos7的创建与安装 (附链接图解)
Hadoop入门系列(二)Centos7的安装与使用(附链接图解)准备工作1.镜像下载下载 Centos7 安装光盘镜像文件点击下面的连接就可以开始下载了下载Centos镜像的地址2.电脑配置检查具体看下面两个链接是否开启虚拟化的查看虚拟化和禁用安全启动的设置3.VMware的配置查看3.1文件夹配置启动VMware workstation 软件后选择菜单>编辑 >首选项,如下图选择存放虚拟机的默认文件夹,以后新建或导入的虚拟机时,除非特别指定,默认情况下都会将虚拟机保原创 2020-07-29 20:59:48 · 307 阅读 · 0 评论 -
Scala编程 (二) 基本语法
Scala编程 (二) 基本语法1.声明值和变量Scala有两种类型的变量:val:是不可变的,在声明时就必须被初始化,而且初始化以后就不能再赋值;var:是可变的,声明的时候需要进行初始化,初始化以后还可以再次对其赋值。val 声明值这种变量在声明的时候就必须被初始化,如下是几种初始化的方法下面方法 由编译器自己推断变量的类型属于字符串**下面方法 在变量名后先加 冒号 与数据类型 **可以使用java中的数据类型这是因为scala在启动的时候 已经自动执行了下面这条命令原创 2020-08-04 20:33:44 · 434 阅读 · 0 评论 -
Scala编程 (一) 第一个scala程序
Spark编程 (一) 第一个scala程序简介Scala运行于Java虚拟机(JVM)之上,因此只要安装有相应的Java虚拟机,所有的操作系统都可以运行Scala程序,包括Window、Linux、Unix、MacOS等准备安装Java安装Scala使用Scala解释器第一个scala程序object HelloWorld { def main(args: Array[String]) { System.out.println("HelloWorld")原创 2020-08-04 20:33:39 · 336 阅读 · 0 评论 -
VMware 中 Ubuntu的安装
VMware 中 Ubuntu的安装步骤1.文件>新建虚拟机2.下一步3.下一步4.稍后安装操作系统5.下一步6.自己取创建的虚拟机名字和存放路径7.根据自己电脑的配置选择配置8.选择虚拟机的内存,一般为2G9.默认下一步10.下一步11.下一步12.选择创建新虚拟磁盘13.选择拆分多个文件磁盘大小 这里多设置一点 为60G不然会直接占 60G的大小,拆分的话会根据虚拟机中下载文件等操作 慢慢增加文件占据的大小14.可以改名字15.完成创建原创 2020-05-18 22:00:24 · 295 阅读 · 0 评论 -
实验七:掌握基本的MapReduce编程方法 (JAVA+Python实现)(编程实现文件合并和去重操作,编写程序实现对输入文件的排序,对给定的表格进行信息挖掘)
一、实验目的:1. 理解MapReduce的工作机制;2. 掌握基本的MapReduce编程方法3. 重点理解map过程,shuffle过程和reduce过程二、实验环境:Hadoop+Eclipse+JDK三、实验内容和要求:1.编程实现文件合并和去重操作对于两个输入文件,即文件A和文件B,请编写MapReduce程序,对两个文件进行合并,并剔除其中重复的内容,得到一个新的输出文...原创 2020-04-22 21:02:50 · 13019 阅读 · 4 评论 -
Eclipes实现Mapreduce的配置(配图解与WordCount案例)
Eclipes实现Mapreduce的配置(虚拟机中)1.插件准备我们需要下载 hadoop-eclipse-plugin-2.7.1.jar插件,插件已经上传到群文件中如果你的文件下载在了windows中,点击下方的链接完成文件的上传windows上传文件到虚拟机的几种方法如果我们的文件在下载目录,我们可以通过下面的命令检查一下是否成功上传ls | grep hadoop-e接...原创 2020-04-16 13:27:23 · 2323 阅读 · 1 评论 -
Hadoop入门系列(一)VMware Workstation 15 Pro的安装与使用(附链接图解)
Hadoop入门系列(一)VMware Workstation 15 Pro的安装与使用点击VMware-workstation-full-15.5.1-15018445进行安装YG5H2-ANZ0H-M8ERY-TXZZZ-YKRV8UG5J2-0ME12-M89WY-NPWXX-WQH88UA5DR-2ZD4H-089FY-6YQ5T-YPRX6GA590-86Y05-4...原创 2020-04-14 17:52:24 · 626 阅读 · 1 评论 -
MongoDB集群介绍(详细,含搭建过程)
MongoDB集群介绍高可用集群配置HA(High Availability Cluster)主要有以下几种方法,了解即可主从方式双机双工方式集群工作方式MongoDB集群配置的几种方案也遵循了这几种解决办法。1.Master-Slave主从在高版本的MongoDB(3.2以上)中,官方已经不推荐使用主从模式,取而代之的,是使用复制集(Replica Set)的方式...原创 2020-04-13 19:26:27 · 1514 阅读 · 0 评论 -
Hadoop之HBase
Hadoop之HBase1.Hadoop生态系统2.HBase简介3.HBase数据模型row key 相同的数据是一行,上图只有一个row key 所以只有一行数据time stamp 描述数据的版本,使用时间戳记录,修改就是新增一个版本CF1 CF2 CF3是列族cell是一个单元格 由row key time stamp(版本) 和处于哪个列族下 共同决定存储的数据...原创 2020-02-17 15:56:44 · 255 阅读 · 0 评论 -
Hadoop之mr分布式计算机框架
Hadoop之mr分布式计算机框架Hadoop核心组件–MRHadoop 分布式计算框架1.MapReduce设计理念何为分布式计算移动计算,而不是移动数据2.计算机框架MR原创 2020-02-16 19:31:28 · 634 阅读 · 0 评论 -
Hadoop学习之HDFS
Hadoop学习尚学堂__hadoop100集精讲课程组成:HDFS(分布式文件系统)可以存储结构化和非结构化的数据MapReduceHBaseHDFSHDFS为了做到可靠性创建了多份数据块的复制,并将它们防止在服务器群的计算节点中MapReduce就可以在它们所在的节点上处理这些数据了比如在机器A和机器B上都有我要读取的数据,在要读取的时候机器A负载比较大,那么就使用...原创 2020-02-13 17:36:32 · 831 阅读 · 0 评论