- 博客(42)
- 资源 (1)
- 收藏
- 关注
原创 Sqoop 数据迁移
sqoop原理将导入或导出命令翻译成 MapReduce 程序来实现。在翻译出的 MapReduce 中主要是对 inputformat 和 outputformat 进行定制数据库的准备登录mysqlmysql -u user -p password创建数据库create database database_name; 导入数据source /root/text/retail_db.sql;sqoop的使用导入数据导入一个表到 hdfs(需要转义换行符)sqoop im
2021-03-08 16:14:48
150
原创 数据探索
启动hadoop集群start-all.sh启动zeppelin服务./bin/zeppelin-daemon.sh start把多个csv文件放到hdfs下hdfs dfs -mkdir -p levents/datahdfs dfs -put -f *.csv /events/datahdfs dfs -ls /events/data进入zeppelin192.168.61.107:8000点击NotebookCreate new note解释器选择sparkcreat
2021-01-19 09:40:30
198
原创 RDD 分组 TOP n
##原始数据香菜 2.80 2018/1/1 山西汾阳市晋阳农副产品批发市场 山西 汾阳大葱 2.80 2018/1/1 山西汾阳市晋阳农副产品批发市场 山西 汾阳葱头 1.60 2018/1/1 山西汾阳市晋阳农副产品批发市场 山西 汾阳大蒜 3.60 2018/1/1 山西汾阳市晋阳农副产品批发市场 山西 汾阳蒜苔 6.20 2018/1/1 山西汾阳市晋阳农副产品批发市场 山西 汾阳韭菜 5.60 2018/1/1 山西汾阳市晋阳农副产品批发市场 山西 汾阳青椒 5.20
2021-01-18 17:20:23
228
原创 spark 求平均值
val rdd=sc.makeRDD(List(("a",1),("a",2),("a",3),("b",1),("b",2),("b",3),("b",4),("a",4)),2)combineByKeyrdd.combineByKey( x=>(x, 1), (x: (Int, Int), y: Int) => (x._1 + y, x._2 + 1), (x: (Int, Int), y: (Int, Int)) => (x._1 + y.
2021-01-15 19:25:20
1326
原创 启动HBase Hmaster几秒后消失
master.HMaster: Failed to become activemasterorg.apache.hadoop.ipc.RemoteException(java.io.IOException): File /hbase/.tmp/hbase.version could only be replicated to 0 nodes instead of minReplication (=ion.master.HMaster: Unhandled exception. Starting shut
2021-01-15 15:38:15
389
原创 Spark SQL
Catalyst Optimizer在投影上找到过滤器检查筛选器是否可以在投影之前进行计算如果是,则切换操作select name from(select id,name from people) pwhere p.id=1Spark SQL APISparkContextDriver与Spark Cluster (Workers)的对接Spark功能的主要入口点SQLContext在Spark中封装所有的关系功能SparkSession提供与底层Spark功能交互的
2021-01-11 17:31:10
148
原创 spark执行模型
Direct Acyclic Graph直接无环图-对数据进行的计算序列节点:抽样分区Edge:数据上的转换Acyclic:图不能返回到旧的分区Direct:转换是转换数据分区状态的操作(从A到B)Spark 执行模型创建rdd的DAG来表示计算为DAG创建逻辑执行计划根据重新组织数据的需要划分为“阶段”3.计划并执行个别任务将每个阶段划分为任务(每个分区);任务是数据+计算在继续之前,执行一个阶段内的所有任务...
2021-01-03 15:48:51
266
原创 Spark
优势快速利用内存通用框架-生态系统良好而广泛的APl支持-与Java, Python, Scala的本地集成。Spark在单个框架内处理批处理、交互和实时利用弹性分布式数据集- RDD在内存中处理数据(1)弹性—如果数据丢失在内存中,可以重新创建数据(2)分布式—跨集群存储在内存中(3)数据集-可以从文件或编程方式创建Spark Shell文件单词统计//传入文件val lines = sc.textFile("file:///root/workspace/interview.t
2021-01-02 18:34:23
115
原创 scala数据类型 元组 数组 集合 Set Map
scala的变量和常量类型推断Scala编译器可以推断出表达式的类型,因此不必显示声明。减少自动类型推断可以提高代码的阅读性。var a=1 //直接赋值var a:Int=_ //不赋值用下划线scala数据类型总体上分为两类值类型与引用类型的区别值类型:直接储存值,在栈上储存值引用类型:储存对其值的引用,在栈上储存地址,在堆上储存值变量var 变量名称:变量类型=值常量val别名typeraw //输入原始字符 不进行转义object HelloWorl
2020-12-28 14:50:02
143
原创 HBase
NoSQL什么是 NoSQLNoSQL(最初指“非SQL”、“非关系”或“不仅是SQL”)Nosql是一个通用术语,它是指任何不遵循传统rdbms模型的数据存储区,具体来说,数据是非关系的,并且它不使用sql作为主数据。查询语言它用于指试图解决可伸缩性和有效性问题的数据库,而不是原子性或一致性问题。为什么需要NoSQL互联网规模数百万用户低存储成本增加处理能力捕捉(和需要)数以百万计的事件的能力。缓存在一定程度上解决了问题,但也带来了其他复杂性实时响应需要向外扩展而不是向上扩展
2020-12-23 18:43:23
104
原创 Hive映射 Region拆分 HFile合并 HBase优化
映射hbase 数据 amiller column=addr:state, timestamp=1608006023452, value=TX jsmith column=addr:city, timestamp=1608006023386, value=denver
2020-12-21 16:39:21
568
原创 hbase java API
创建一个maven项目pom.xml<repositories> <repository> <id>cloudera</id> <url>https://repository.cloudera.com/artifactory/cloudera-repos/</url> </repository></repositories><depende
2020-12-18 15:34:17
87
原创 HBase 分布式环境搭建
分布式环境搭建启动zookeeperzkServer.sh start启动 Hadoopstart-dfs.sh解压 HBasetar -zxf hbase-1.2.0-cdh5.14.2.tar.gz移动 HBasemv hbase-1.2.0-cdh5.14.2 /opt/install/hbase到 HBase的配置文件目录下cd /opt/install/hbase/conf修改HBase配置文件hbase-env.sh#JDK路径export JAVA_
2020-12-17 10:25:29
83
原创 成绩表里查找和指定学生课程相同的其他学生
成绩表数据+-------------------+------------------+--------------+--+| score.student_id | score.course_id | score.score |+-------------------+------------------+--------------+--+| 1 | 1 | 80 || 1
2020-12-15 12:18:26
576
原创 HIVE 内置函数
字符函数concat 合并多个字符串select concat('hello','world');+-------------+--+| _c0 |+-------------+--+| helloworld |+-------------+--+instr匹配表中name列 字符 i 出现位置大于 2 的列select name,instr(name,'i') from employee where instr(name,'i')>1;+----------
2020-12-14 16:50:07
236
原创 linux 引用 循环 sort sed cut
引用双引号[root@four ~]# name=zhangsan[root@four ~]# echo "$name"zhangsan单引号[root@four ~]# name=zhangsan[root@four ~]# echo '$name'$name反引号[root@four ~]# name=`ls -l`[root@four ~]# echo "$name"总用量 8-rw-------. 1 root root 1534 10月 29 18:24 anacon
2020-12-14 09:04:59
107
原创 linux 防火墙 端口 vi
查看防火墙状态systemctl status firewalld启动防火墙systemctl start firewalld关闭防火墙systemctl stop firewalld查看已使用端口netstat -nultp查看指定端口状态netstat -anp |grep 端口号关闭端口
2020-12-14 09:01:48
111
原创 解决xshell连接虚拟机过慢
编辑 sshd_config 文件 vi +/UseDNS /etc/ssh/sshd_config 将光标所在行替换UseDNS no重启服务systemctl restart sshd
2020-12-08 10:03:19
95
原创 Hive排序和窗口函数
Hive sorting date - order by order by(ASC\DESC)类似于标准SQL order by 只使用一个reducer来执行全局数据排序。 由于 order by 比较慢,我们应该尽早投放过滤器 order by 支持使 case when 或 表达式 order by 支持由位置数字一次设置此...
2020-11-29 14:53:55
266
原创 Hive views select load insert export import
Hive Views视图是一种通过在虚拟表中隐藏子查询、连接、函数来简化查询的逻辑结构不存储数据或得到具体化创建视图后,将立即冻结其架构。如果删除或更改基础表,则查询视图将失败。视图是只读的,不能用作LOAD/INSERT/ALTER的目标。hive views 常用操作建立视图支持cte,order by,limit,jion,ect。create view view_name as select --创建视图show tabl...
2020-11-27 17:34:06
243
原创 mysql 大区数据分析
将 A 表转化为 B 表A+------+--------+--------+-------+| year | region | city | money |+------+--------+--------+-------+| 2004 | 华南 | 深圳 | 70 || 2005 | 华南 | 深圳 | 80 || 2006 | 华南 | 深圳 | 100 || 2004 | 华南 | 广州 | 40 || 2005 | 华
2020-11-27 16:28:57
98
原创 myql 各省市场数据分析
检验数据查看文本 headhead 文件香菜 2.80 2018/1/1 山西汾阳市晋阳农副产品批发市场 山西 汾阳大葱 2.80 2018/1/1 山西汾阳市晋阳农副产品批发市场 山西 汾阳葱头 1.60 2018/1/1 山西汾阳市晋阳农副产品批发市场 山西 汾阳大蒜 3.60 2018/1/1 山西汾阳市晋阳农副产品批发市场 山西 汾阳蒜苔 6.20 2018/1/1 山西汾阳市晋阳农副产品批发市场 山西 汾阳韭菜 5.60 2018/1/1 山西汾阳市晋阳农副产品批发市
2020-11-25 17:50:48
195
原创 Hive 基础
进入beelinebeeline -u dbc:hive2://localhost:10000/default进入交互界面(ctrl+c 输入hive)执行后就退出beeline> [root@sandbox-hdp ~]# hive -e "show databases"数据类型基本数据类型复杂数据类型Hive Meta Data Structure (元数据总览)Data StructureLogicalPhysical (HDFS)Database
2020-11-25 11:08:08
185
原创 mysql 淘宝数据分析
建表主键唯一create table user(id int primary key auto_incrementuser_id int,item_id int,category_id int,behavior_type varcahr(10),time int);导入数据检查导入数据和行和列wc -l 文件head 文件查看导入了多少条数据select count(*) from userform_unixtimedate...
2020-11-24 22:12:22
216
原创 zookeeper安装和特点
前提准备工作:三台虚拟机 都安装jdk安装步骤创建两个目录放安装包的文件夹mkdir software一个安装目录mkdir /opt/install安装一个上传工具yum -y install lrzszcd /software将zookeeper压缩包直接拖到 xshell里解压tar -zx zookeeper-3.4.5-cdh5.14.2.tar.gz将解压后的 zooleeper 移动到 install 下并重命名mv zookeeper-3.4.5-cd
2020-11-20 10:31:19
90
原创 linux 猜数字游戏脚本
!/bin/bash m=$[RANDOM%5+1] while : do read -p"输入数字1~5 " n; while : do if [ $n -gt $m ] ; then echo "数字猜大了" && break; elif [ $n -eq $m ] ; then echo "恭
2020-11-13 17:20:32
552
原创 linux awk
awk语法:awk -F ‘{pattern + action}’ {filenames}支持自定义分隔符–支持正则表达式匹配–支持自定义变量,数组 a[1] a[tom] map(key)–支持内置变量•ARGC 命令行参数个数•ARGV 命令行参数排列•ENVIRON 支持队列中系统环境变量的使用•FILENAME awk浏览的文件名•FNR 浏览文件的记录数•FS 设置输入域分隔符,等价于命令行 -F选
2020-11-12 17:08:42
88
原创 liunx shell
变量unste 变量 撤销变量$? 上一个执行的命令的状态 返回0无误 其他值有误$$ 当前进程的 PID在一个脚本文件 test.txtecho $# 打印长度echo $* 打印所有字符echo $@ 打印所有字符echo ${11} 打印第11个执行脚本 sh test.txt 1 2 3 4 5 6 7 8 9 0 a b c d执行
2020-11-09 09:57:18
71
原创 使用免密登录或同步控制在多台虚拟机安装 jdk 和 maven 等
jdk将 jdk-8u241-linux-x64.tar.gz 移动到 /usr/local/jdk(如果 /usr/local/jdk 不存在则创建 /usr/local/jdk ) mv jdk-8u241-linux-x64.tar.gz /usr/local/jdkmaven下载地址: 清华镜像 Index of /apache/maven/maven-3/3.3.9/binaries本次以 apache-maven-3.3.9-bin.tar.gz 操作为例安装 wet (安装过的跳
2020-11-04 12:32:15
358
原创 linux 常用命令
cd更改路径grep 使用正则表达式的搜索工具 - i 不区分大小写的搜索 - w 只匹配整个单词只列出文件名 - l 只列出文件名,而不列出匹配的行 - r 在当前和所有子目录中搜索 - n 列出具有行号的匹配行 - v 显示不匹配的行 - -color 用颜色显示匹配的行 - -include 根据类型去找文件clear 清屏file 识别文件类型wc 统计命令-w 统计单词数-l 统计行
2020-11-03 10:10:17
219
原创 HDFS Shell 操作
建个文件hdfs dfs -mkdir /文件查看当前目录下的文件hdfs dfs -ls /在某个文件下建个目录 hdfs dfs -mkdir-p /temp/user/data/el将文件移动到某个目录下hdfs dfs -put 文件 /目录看文件的内容的前几行(默认是前10行)hdfs dfs -cat /文件 |head查看文件有多少行hdfs dfs -cat /文件 |wc -l查看文件有特定字符的行内容hdfs dfs -cat /文件 | grep
2020-11-01 17:47:57
176
原创 虚拟机配置静态ip地址和映射
安装虚拟机外置命令帮助man 和 man 的帮助文档 yum -y install man man-pages进入静态ip地址的配置文件cd /etc/sysconfig//network-scripts/编辑文件并使光标定位到最后一行vi + ifcfg-ens33注意更改以下属性值为 staticBOOTPROTO="static"在最后一行 加入IP地址 网关 子网掩码 域名服务器ip 地址组成:网络地址 (前三个字节) +主机地址 (最后一个字节)主机地址可以自定义为
2020-11-01 12:30:34
2052
原创 win10家庭版找不到gpedit.msc
电脑桌面新建一个文本文档将以下代码粘贴进去@echo offdir /b C:\Windows\servicing\Packages\Microsoft-Windows-GroupPolicy-ClientExtensions-Package~3*.mum >List.txtdir /b C:\Windows\servicing\Packages\Microsoft-Windows-GroupPolicy-ClientTools-Package~3*.mum >>List.tx
2020-11-01 11:14:02
271
原创 使用VMware安装虚拟机
下载镜像去官网下好CentOS 7 镜像本次以 CentOS-7-x86_64-Minimal-2003.iso 的安装为例创建虚拟机直接 下一步 跳过完成后点击确定开机点击开启虚拟机点击日期和时间点击网络和主机名在安装信息摘要点击 软件安装在安装信息摘要点击 开始安装跳出设置root账户密码...
2020-10-29 18:29:16
116
原创 使用IDEA搭建web环境
Tomcat目录结构操作Tomcat注意事项(1)startup.bate 启动后最小化 不许关闭访问Tomcat主页:http://localhost:端口号(2)启动时一闪而过配置java的环境变量 path 和 JAVA_HOME(3)端口号修改 conf/server.xml默认http://localhost:8080/部署web应用程序1 生成War包选着项目右键 ==> Export ==> JavaEE ==> WarFile ==>next
2020-10-18 16:26:49
153
原创 mysql增删改查
登录mysql[root@localhost ~]# mysql -u user -p password!数据库展示库mysql> show databases;建库mysql> create database study;使用库mysql> use study;表建表create table student(id int primary key auto_increment,name varchar(20),money double(5,2),ph
2020-10-18 11:18:47
299
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人