王天一的博客

信息时代的一剂强心针

CDH平台常用操作简介(5.12版本)

1.CDH启动/关闭 1.1启动CDH 1:先启动Mysql service mysql start 2:hadoop001再启动Server:/opt/cloudera-manager/cm-5.12.0/etc/init.d/cloudera-scm-server start 3:hadoop...

2019-07-11 14:15:33

阅读数 2

评论数 0

SparkSQL 读取mysql大表速度过慢解决方法

问题背景 在使用sqarksql.read读取mysql表时(大约为2400万条左右) val scholarDF = spark.read .format("jdbc") .option("url", "jdbc:my...

2019-07-08 12:13:00

阅读数 17

评论数 0

Spark 从Cache与Persist入手,浅谈缓存类别的关系与区别

我们为什么要在spark中使用Cache? 我们先做一个简单的测试读取一个本地文件做一次collect操作:(仅做测试用,生产中使用collect容易发生driver OOM等问题,不推荐使用) val rdd=sc.textFile("file:///home/hadoop/data/...

2019-07-03 16:12:50

阅读数 15

评论数 0

SparkStreaming+kafka 外部数据源保存offset实例(MySQL)

MySQL创建存储offset的表格 mysql> use test mysql> create table hlw_offset( topic varchar(32), groupid varchar(50), part...

2019-07-01 15:52:42

阅读数 4

评论数 0

SparkSQL 操作常用外部数据源小结(二)

Hive数据源     Apache Hive是Hadoop上的SQL引擎,Spark SQL编译时可以包含Hive支持,也可以不包含。包含Hive支持的Spark SQL可以支持Hive表访问、UDF(用户自定义函数)以及 Hive 查询语言(HiveQL/HQL)等。需要强调的 一点是,如果要...

2019-06-27 14:47:20

阅读数 4

评论数 0

SparkSQL 操作常用外部数据源小结(一)

通用加载/保存方法 手动指定选项 Spark SQL的DataFrame接口支持多种数据源的操作。一个DataFrame可以进行RDDs方式的操作,也可以被注册为临时表。把DataFrame注册为临时表之后,就可以对该DataFrame执行SQL查询。 Spark SQL的默认数据源为Parque...

2019-06-26 10:13:32

阅读数 5

评论数 0

hadoop 常用linux命令

单独启动和关闭hadoop服务 启动名称节点 :hadoop-daemon.sh start namenode 启动数据节点:hadoop-daemons.sh start datanode slave 启动secondarynamenode:hadoop-daemon.sh start seco...

2019-06-25 18:16:48

阅读数 8

评论数 0

SparkSQL 解析XML文件并在UDF中传入Map[]类型的参数

需求场景如下: 有一份xml文件存储着中图分类号-----> 教育部分类号的映射关系 部分如下图所示 现在需要解析这份xml文件,并根据对应的映射关系,将DF中的中图分类号映射为相应的教育部分类号 1:spark解析xml文件 maven中导入spark-xml对应的依赖 ...

2019-06-25 11:32:11

阅读数 29

评论数 0

spark 构建自增id列遇到的问题及解决方法

使用场景 在为总行数为2400的单字段机构列表创建递增的id列时 如图: 在使用如下代码时 // 使用 monotonically_increasing_id()函数构建自增id列 val lin5 =sc.textFile("file:///spark//headings//uni...

2019-04-17 12:35:13

阅读数 67

评论数 0

shell编程常用基本功能

1.在shell编程之前 ①:关于shell:shell通常以.sh结尾,但.sh结尾的并不一定是可执行脚本 ②:shell脚本头文件一般以 #!/bin/bash开头 ③:在完成shell文件的编写后,需要为脚本文件赋予权限才可执行 通常为 chmod +x xxx.sh 或者 chmod 77...

2019-04-15 15:18:51

阅读数 14

评论数 0

hadoop HA架构模式

1.为什么要使用hadoop HA部署 ① 当使用非HA部署方式时,只有一个NN(namenode),当该namenode 即整个集群的master宕机时,整个集群将会面临短期内乃至长期无法访问的窘境直到问题解决 ②非HA部署方式时,使用的是SNN的时间为一小时checkpoint机制,无法做到灵...

2019-04-03 23:51:03

阅读数 9

评论数 0

HDFS架构原理思想及各模块功能简述

1:架构原理 2 block(块)解析 块的大小128M 块的副本数3 <property> <name>dfs.blocksize</name&gt...

2019-02-23 16:53:02

阅读数 254

评论数 0

hadoop hdfs单节点简易部署(二)

5.配置ssh localhost无密码信任关系 [hadoop@hadoop002 ~]$ ssh-keygen Generating public/private rsa key pair. Enter file in which to save the key (/home/hadoop/....

2019-02-23 16:34:00

阅读数 12

评论数 0

hadoop hdfs单节点简易部署(一)

1.创建用户和上传hadoop软件: useradd hadoop su - hadoop [hadoop@hadoop002 ~]$ mkdir app [hadoop@hadoop002 ~]$ cd app/ [hadoop@hadoop002 ~]$ wget http://archive...

2019-02-23 16:30:06

阅读数 12

评论数 0

以简单场景为基础归纳mysql基本语法

以简单场景为基础归纳mysql基本语法 1.创建需要用到的表并填充测试数据: --部门表 dept部门表(deptno部门编号/dname部门名称/loc地点) create table dept ( deptno numeric(2), dname varchar(14), ...

2019-02-13 18:32:19

阅读数 39

评论数 0

MySQL部署及相关问题

MySQL部署及相关问题 1.关于mysql: RPM: 学习 测试 快速部署 tar: 定制化 企业级 https://github.com/Hackeruncle/MySQL/blob/master/MySQL 5.6.23 Install.txt RPM安装: yum install -y...

2019-02-13 17:11:58

阅读数 29

评论数 0

linux基本命令(三)

Linux基本操作命令(三) 1.文本编辑操作及相关快捷键: vi 文本编辑 vi xxx.log 命令行模式常见快捷键: dd 删除当前行 dG 删除光标以下的所有行 ndd 删除光标以下的n行 gg 跳转到第一行的第一个字母 G 跳转到最后一行的第一个字母 shift+$ 行尾 2.清空...

2019-02-13 16:37:02

阅读数 19

评论数 0

linux基本命令(二)

Linux基本操作命令(二) 1.用户与用户组相关命令: [root@hadoop001 ~]# useradd ruoze 自动创建一个用户组 [root@hadoop001 ~]# id ruoze uid=501(ruoze) gid=501(ruoze) groups=501(ruo...

2019-02-13 11:58:40

阅读数 33

评论数 0

linux基本命令(一)

Linux基本操作命令(一) 1.查看当前光标所在的路径: pwd 2.切换目录: cd 家目录 cd ~ 切换到家目录 cd - 切换到上一次目录 cd ../ 切换到上一层目录 cd ../../ 切换到上2层 ../../ 3.打印文件与查看文件夹相关信息: l...

2019-02-13 11:41:45

阅读数 22

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭