超电磁手炮-CSDN博客

原创 Sqoop 数据迁移

sqoop原理将导入或导出命令翻译成 MapReduce 程序来实现。在翻译出的 MapReduce 中主要是对 inputformat 和 outputformat 进行定制数据库的准备登录mysqlmysql -u user -p password创建数据库create database database_name; 导入数据source /root/text/retail_db.sql;sqoop的使用导入数据导入一个表到 hdfs（需要转义换行符）sqoop im

2021-03-08 16:14:48 195

原创数据探索

启动hadoop集群start-all.sh启动zeppelin服务./bin/zeppelin-daemon.sh start把多个csv文件放到hdfs下hdfs dfs -mkdir -p levents/datahdfs dfs -put -f *.csv /events/datahdfs dfs -ls /events/data进入zeppelin192.168.61.107:8000点击NotebookCreate new note解释器选择sparkcreat

2021-01-19 09:40:30 246

原创 RDD 分组 TOP n

##原始数据香菜 2.80 2018/1/1 山西汾阳市晋阳农副产品批发市场山西汾阳大葱 2.80 2018/1/1 山西汾阳市晋阳农副产品批发市场山西汾阳葱头 1.60 2018/1/1 山西汾阳市晋阳农副产品批发市场山西汾阳大蒜 3.60 2018/1/1 山西汾阳市晋阳农副产品批发市场山西汾阳蒜苔 6.20 2018/1/1 山西汾阳市晋阳农副产品批发市场山西汾阳韭菜 5.60 2018/1/1 山西汾阳市晋阳农副产品批发市场山西汾阳青椒 5.20

2021-01-18 17:20:23 286

原创 spark 求平均值

val rdd=sc.makeRDD(List(("a",1),("a",2),("a",3),("b",1),("b",2),("b",3),("b",4),("a",4)),2)combineByKeyrdd.combineByKey( x=>(x, 1), (x: (Int, Int), y: Int) => (x._1 + y, x._2 + 1), (x: (Int, Int), y: (Int, Int)) => (x._1 + y.

2021-01-15 19:25:20 1448

原创启动HBase Hmaster几秒后消失

master.HMaster: Failed to become activemasterorg.apache.hadoop.ipc.RemoteException(java.io.IOException): File /hbase/.tmp/hbase.version could only be replicated to 0 nodes instead of minReplication (=ion.master.HMaster: Unhandled exception. Starting shut

2021-01-15 15:38:15 448

原创 Spark SQL

Catalyst Optimizer在投影上找到过滤器检查筛选器是否可以在投影之前进行计算如果是，则切换操作select name from(select id,name from people) pwhere p.id=1Spark SQL APISparkContextDriver与Spark Cluster (Workers)的对接Spark功能的主要入口点SQLContext在Spark中封装所有的关系功能SparkSession提供与底层Spark功能交互的

2021-01-11 17:31:10 184

原创 spark执行模型

Direct Acyclic Graph直接无环图-对数据进行的计算序列节点:抽样分区Edge:数据上的转换Acyclic:图不能返回到旧的分区Direct:转换是转换数据分区状态的操作(从A到B)Spark 执行模型创建rdd的DAG来表示计算为DAG创建逻辑执行计划根据重新组织数据的需要划分为“阶段”3.计划并执行个别任务将每个阶段划分为任务(每个分区);任务是数据+计算在继续之前，执行一个阶段内的所有任务...

2021-01-03 15:48:51 305

原创 Spark

优势快速利用内存通用框架-生态系统良好而广泛的APl支持-与Java, Python, Scala的本地集成。Spark在单个框架内处理批处理、交互和实时利用弹性分布式数据集- RDD在内存中处理数据（1）弹性—如果数据丢失在内存中，可以重新创建数据（2）分布式—跨集群存储在内存中（3）数据集-可以从文件或编程方式创建Spark Shell文件单词统计//传入文件val lines = sc.textFile("file:///root/workspace/interview.t

2021-01-02 18:34:23 177

原创 scala数据类型元组数组集合 Set Map

scala的变量和常量类型推断Scala编译器可以推断出表达式的类型，因此不必显示声明。减少自动类型推断可以提高代码的阅读性。var a=1 //直接赋值var a:Int=_ //不赋值用下划线scala数据类型总体上分为两类值类型与引用类型的区别值类型：直接储存值，在栈上储存值引用类型：储存对其值的引用，在栈上储存地址，在堆上储存值变量var 变量名称:变量类型=值常量val别名typeraw //输入原始字符不进行转义object HelloWorl

2020-12-28 14:50:02 169

原创 HBase

NoSQL什么是 NoSQLNoSQL(最初指“非SQL”、“非关系”或“不仅是SQL”)Nosql是一个通用术语，它是指任何不遵循传统rdbms模型的数据存储区，具体来说，数据是非关系的，并且它不使用sql作为主数据。查询语言它用于指试图解决可伸缩性和有效性问题的数据库，而不是原子性或一致性问题。为什么需要NoSQL互联网规模数百万用户低存储成本增加处理能力捕捉(和需要)数以百万计的事件的能力。缓存在一定程度上解决了问题，但也带来了其他复杂性实时响应需要向外扩展而不是向上扩展

2020-12-23 18:43:23 142

原创 Hive映射 Region拆分 HFile合并 HBase优化

映射hbase 数据 amiller column=addr:state, timestamp=1608006023452, value=TX jsmith column=addr:city, timestamp=1608006023386, value=denver

2020-12-21 16:39:21 692

原创 hbase java API

创建一个maven项目pom.xml<repositories> <repository> <id>cloudera</id> <url>https://repository.cloudera.com/artifactory/cloudera-repos/</url> </repository></repositories><depende

2020-12-18 15:34:17 141

原创 HBase 分布式环境搭建

分布式环境搭建启动zookeeperzkServer.sh start启动 Hadoopstart-dfs.sh解压 HBasetar -zxf hbase-1.2.0-cdh5.14.2.tar.gz移动 HBasemv hbase-1.2.0-cdh5.14.2 /opt/install/hbase到 HBase的配置文件目录下cd /opt/install/hbase/conf修改HBase配置文件hbase-env.sh#JDK路径export JAVA_

2020-12-17 10:25:29 122

原创成绩表里查找和指定学生课程相同的其他学生

成绩表数据+-------------------+------------------+--------------+--+| score.student_id | score.course_id | score.score |+-------------------+------------------+--------------+--+| 1 | 1 | 80 || 1

2020-12-15 12:18:26 665

原创 HIVE 内置函数

字符函数concat 合并多个字符串select concat('hello','world');+-------------+--+| _c0 |+-------------+--+| helloworld |+-------------+--+instr匹配表中name列字符 i 出现位置大于 2 的列select name,instr(name,'i') from employee where instr(name,'i')>1;+----------

2020-12-14 16:50:07 295

原创 linux 引用循环 sort sed cut

引用双引号[root@four ~]# name=zhangsan[root@four ~]# echo "$name"zhangsan单引号[root@four ~]# name=zhangsan[root@four ~]# echo '$name'$name反引号[root@four ~]# name=`ls -l`[root@four ~]# echo "$name"总用量 8-rw-------. 1 root root 1534 10月 29 18:24 anacon

2020-12-14 09:04:59 144

原创 linux 防火墙端口 vi

查看防火墙状态systemctl status firewalld启动防火墙systemctl start firewalld关闭防火墙systemctl stop firewalld查看已使用端口netstat -nultp查看指定端口状态netstat -anp |grep 端口号关闭端口

2020-12-14 09:01:48 157

原创解决xshell连接虚拟机过慢

编辑 sshd_config 文件 vi +/UseDNS /etc/ssh/sshd_config 将光标所在行替换UseDNS no重启服务systemctl restart sshd

2020-12-08 10:03:19 143

原创 Hive排序和窗口函数

Hive sorting date - order by order by(ASC\DESC)类似于标准SQL order by 只使用一个reducer来执行全局数据排序。由于 order by 比较慢，我们应该尽早投放过滤器 order by 支持使 case when 或表达式 order by 支持由位置数字一次设置此...

2020-11-29 14:53:55 321

原创 Hive views select load insert export import

Hive Views视图是一种通过在虚拟表中隐藏子查询、连接、函数来简化查询的逻辑结构不存储数据或得到具体化创建视图后，将立即冻结其架构。如果删除或更改基础表，则查询视图将失败。视图是只读的，不能用作LOAD/INSERT/ALTER的目标。hive views 常用操作建立视图支持cte，order by，limit，jion，ect。create view view_name as select --创建视图show tabl...

2020-11-27 17:34:06 304

原创 mysql 大区数据分析

将 A 表转化为 B 表A+------+--------+--------+-------+| year | region | city | money |+------+--------+--------+-------+| 2004 | 华南 | 深圳 | 70 || 2005 | 华南 | 深圳 | 80 || 2006 | 华南 | 深圳 | 100 || 2004 | 华南 | 广州 | 40 || 2005 | 华

2020-11-27 16:28:57 128

原创 myql 各省市场数据分析

检验数据查看文本 headhead 文件香菜 2.80 2018/1/1 山西汾阳市晋阳农副产品批发市场山西汾阳大葱 2.80 2018/1/1 山西汾阳市晋阳农副产品批发市场山西汾阳葱头 1.60 2018/1/1 山西汾阳市晋阳农副产品批发市场山西汾阳大蒜 3.60 2018/1/1 山西汾阳市晋阳农副产品批发市场山西汾阳蒜苔 6.20 2018/1/1 山西汾阳市晋阳农副产品批发市场山西汾阳韭菜 5.60 2018/1/1 山西汾阳市晋阳农副产品批发市

2020-11-25 17:50:48 235

原创 Hive 基础

进入beelinebeeline -u dbc:hive2://localhost:10000/default进入交互界面（ctrl+c 输入hive）执行后就退出beeline> [root@sandbox-hdp ~]# hive -e "show databases"数据类型基本数据类型复杂数据类型Hive Meta Data Structure (元数据总览)Data StructureLogicalPhysical (HDFS)Database

2020-11-25 11:08:08 210

原创 mysql 淘宝数据分析

建表主键唯一create table user(id int primary key auto_incrementuser_id int,item_id int,category_id int,behavior_type varcahr(10),time int);导入数据检查导入数据和行和列wc -l 文件head 文件查看导入了多少条数据select count(*) from userform_unixtimedate...

2020-11-24 22:12:22 252

原创 zookeeper安装和特点

前提准备工作：三台虚拟机都安装jdk安装步骤创建两个目录放安装包的文件夹mkdir software一个安装目录mkdir /opt/install安装一个上传工具yum -y install lrzszcd /software将zookeeper压缩包直接拖到 xshell里解压tar -zx zookeeper-3.4.5-cdh5.14.2.tar.gz将解压后的 zooleeper 移动到 install 下并重命名mv zookeeper-3.4.5-cd

2020-11-20 10:31:19 123

原创 linux 猜数字游戏脚本

!/bin/bash m=$[RANDOM%5+1] while : do read -p"输入数字1~5 " n; while : do if [ $n -gt $m ] ; then echo "数字猜大了" && break; elif [ $n -eq $m ] ; then echo "恭

2020-11-13 17:20:32 630

原创 linux awk

awk语法：awk -F ‘{pattern + action}’ {filenames}支持自定义分隔符–支持正则表达式匹配–支持自定义变量，数组 a[1] a[tom] map(key)–支持内置变量•ARGC 命令行参数个数•ARGV 命令行参数排列•ENVIRON 支持队列中系统环境变量的使用•FILENAME awk浏览的文件名•FNR 浏览文件的记录数•FS 设置输入域分隔符，等价于命令行 -F选

2020-11-12 17:08:42 131

原创 liunx shell

变量unste 变量撤销变量$? 上一个执行的命令的状态返回0无误其他值有误$$ 当前进程的 PID在一个脚本文件 test.txtecho $# 打印长度echo $* 打印所有字符echo $@ 打印所有字符echo ${11} 打印第11个执行脚本 sh test.txt 1 2 3 4 5 6 7 8 9 0 a b c d执行

2020-11-09 09:57:18 97

原创使用免密登录或同步控制在多台虚拟机安装 jdk 和 maven 等

jdk将 jdk-8u241-linux-x64.tar.gz 移动到 /usr/local/jdk（如果 /usr/local/jdk 不存在则创建 /usr/local/jdk ） mv jdk-8u241-linux-x64.tar.gz /usr/local/jdkmaven下载地址：清华镜像 Index of /apache/maven/maven-3/3.3.9/binaries本次以 apache-maven-3.3.9-bin.tar.gz 操作为例安装 wet （安装过的跳

2020-11-04 12:32:15 412

原创 linux 常用命令

cd更改路径grep 使用正则表达式的搜索工具 - i 不区分大小写的搜索 - w 只匹配整个单词只列出文件名 - l 只列出文件名，而不列出匹配的行 - r 在当前和所有子目录中搜索 - n 列出具有行号的匹配行 - v 显示不匹配的行 - -color 用颜色显示匹配的行 - -include 根据类型去找文件clear 清屏file 识别文件类型wc 统计命令-w 统计单词数-l 统计行

2020-11-03 10:10:17 245

原创 HDFS Shell 操作

建个文件hdfs dfs -mkdir /文件查看当前目录下的文件hdfs dfs -ls /在某个文件下建个目录 hdfs dfs -mkdir-p /temp/user/data/el将文件移动到某个目录下hdfs dfs -put 文件 /目录看文件的内容的前几行（默认是前10行）hdfs dfs -cat /文件 |head查看文件有多少行hdfs dfs -cat /文件 |wc -l查看文件有特定字符的行内容hdfs dfs -cat /文件 | grep

2020-11-01 17:47:57 230

原创虚拟机配置静态ip地址和映射

安装虚拟机外置命令帮助man 和 man 的帮助文档 yum -y install man man-pages进入静态ip地址的配置文件cd /etc/sysconfig//network-scripts/编辑文件并使光标定位到最后一行vi + ifcfg-ens33注意更改以下属性值为 staticBOOTPROTO="static"在最后一行加入IP地址网关子网掩码域名服务器ip 地址组成：网络地址 (前三个字节) +主机地址 (最后一个字节)主机地址可以自定义为

2020-11-01 12:30:34 2220

原创 win10家庭版找不到gpedit.msc

电脑桌面新建一个文本文档将以下代码粘贴进去@echo offdir /b C:\Windows\servicing\Packages\Microsoft-Windows-GroupPolicy-ClientExtensions-Package~3*.mum >List.txtdir /b C:\Windows\servicing\Packages\Microsoft-Windows-GroupPolicy-ClientTools-Package~3*.mum >>List.tx

2020-11-01 11:14:02 347

原创使用VMware安装虚拟机

下载镜像去官网下好CentOS 7 镜像本次以 CentOS-7-x86_64-Minimal-2003.iso 的安装为例创建虚拟机直接下一步跳过完成后点击确定开机点击开启虚拟机点击日期和时间点击网络和主机名在安装信息摘要点击软件安装在安装信息摘要点击开始安装跳出设置root账户密码...

2020-10-29 18:29:16 168

原创使用IDEA搭建web环境

Tomcat目录结构操作Tomcat注意事项（1）startup.bate 启动后最小化不许关闭访问Tomcat主页：http：//localhost:端口号（2）启动时一闪而过配置java的环境变量 path 和 JAVA_HOME（3）端口号修改 conf/server.xml默认http://localhost:8080/部署web应用程序1 生成War包选着项目右键 ==> Export ==> JavaEE ==> WarFile ==>next

2020-10-18 16:26:49 211

原创 mysql增删改查

登录mysql[root@localhost ~]# mysql -u user -p password!数据库展示库mysql> show databases;建库mysql> create database study;使用库mysql> use study;表建表create table student(id int primary key auto_increment,name varchar(20),money double(5,2),ph

2020-10-18 11:18:47 343

原创数组去重和次数统计

public class test8 {

2020-10-15 10:16:35 185

原创 web表单元素

基本语法

2020-10-12 11:06:05 242

原创 web表格行列

基本语法跨列跨行跨行和跨列

2020-10-12 09:10:38 462

原创 web列表

1 列表1.1 无序列表1.2 有序列表1.3 定义列表1.4 列表对比

2020-10-12 08:44:05 139

淘宝用户 行为 数据

空空如也

淘宝用户行为数据