孙彬不像个好程序员-CSDN博客

原创 spark处理较复杂的log日志文件

1593136280858|{"cm":{"ln":"-55.0","sv":"V2.9.6","os":"8.0.4","g":"C6816QZ0@gmail.com","mid":"489","nw":"3G","l":"es","vc":"4","hw":"640*960","ar":"MX","uid":"489","t":"1593123253541","la":"5.2","md":"sumsung-18","vn":"1.3.4","ba":"Sumsung","sr":"I"},"ap":

2020-10-20 17:21:00 603

原创 dataframe的一些操作及用法：

DataFrame 的函数Action 操作1、 collect() ,返回值是一个数组，返回dataframe集合所有的行2、 collectAsList() 返回值是一个java类型的数组，返回dataframe集合所有的行3、 count() 返回一个number类型的，返回dataframe集合的行数4、 describe(cols: String*) 返回一个通过数学计算的类表值(count, mean, stddev, min, and max)，这个可以传多个参数，中间用逗号分隔，如

2020-09-17 17:38:12 3101

原创数仓例子基本流程

数据源 .csv .txt … mysql oraclesqoop （数据迁移） mysql =》hdfs 全量，增量flume（数据迁移）文件 =》 console（控制台），kafka， hdfs数据仓库（hdfs）user_friends_rawuser_friends=>flume > kafka(user_friends_raw) >kafkaSteaming>kafka(user_friends)> hbase > hive 外表>

2020-09-09 15:01:25 278

原创 streaming从kafka中读数据

package test01import org.apache.kafka.clients.consumer.{ConsumerConfig, ConsumerRecord}import org.apache.spark.SparkConfimport org.apache.spark.streaming.dstream.{InputDStream, ReceiverInputDStream}import org.apache.spark.streaming.flume.{FlumeUtils,

2020-09-09 15:00:46 234

原创 Flume kafka 简洁快速安装

Flume下载flume1.81:将下载的flume包，解压到/opt目录中cd /opttar -zxvf apache-flume-1.8.0-bin.tar.gz -C /optmv apache-flume-1.8.0-bin flume2:修改conf下的 flume-env.sh 配置文件,主要是JAVA_HOME变量设置cp复制flume-env.sh.template为flume-env.shexport JAVA_HOME=/opt/jdk3)验证是否安装成功./bin

2020-09-09 14:59:14 202

原创 flume 导入kafka中报错但是topic中依然有数据

2020-09-07 18:50:43,825 (pool-3-thread-1) [ERROR - org.apache.flume.source.SpoolDirectorySource$SpoolDirectoryRunnable.run(SpoolDirectorySource.java:280)] FATAL: Spool Directory source eventsSource: { spoolDir: /opt/kb07file/flumeFile/events/ }: Uncaught e

2020-09-07 19:03:24 327

原创建立简单的数据仓库一

一数据的获取来源我们这里直接从数据库中获取在mysql生成数据给定source sql数据结构如下我们数仓的分层分层：ods-ded-dws-dmdw(dwd,dwds)将dw层拆成了dwd，dwdsdwd（data warehouse detail）:数据明细层dws:数据服务层（轻度的汇总，dws层一般都是跨表的）dm（data market）：数据集市层（高度汇总）二使用sqoop导入按实际条件情况导入全量导入:snbap_ods.ods user全量导入:snb

2020-09-06 00:08:39 322

原创 sqoop 基本命令及例子

全量抽取customer表sqoop import \--connect jdbc:mysql://localhost:3306/sales_source \--driver com.mysql.jdbc.Driver \--username root \--password ok \--table customer \--hive-import \--hive-table sales_rds.customer \--hive-overwrite \--target-dir tmp \

2020-09-05 23:57:34 216

原创我的shell脚本学习请自己记得更新

脚本一: ods_full_load.sh (第二天起,每日执行一次)sqoop job --exec bap_usersqoop job --exec bap_user_extendsqoop job --exec bap_user_addrsqoop job --exec bap_biz_trade#定时执行crontab -exec0 2 * * * /root/ods_full_load.sh* * * * *分时日月周...

2020-09-05 23:55:41 128

原创数仓笔记 mysql sqoop hive

在mysql中生成数据source /root/snbap_ods.sql;Hive 分层: ODS->DWD->DWS->DM将DW层拆成了DWD,DWDSDWD(data warehouse detail): 数据明细层DWS(data warehouse service): 数据服务层(轻度的汇总,DWS层一般是跨表的)DM(data market):数据集市层(高度汇总)全量导入: snbap_ods.ods_user全量导入: snbap_ods.ods_user

2020-09-05 23:54:31 165

原创数据仓库分层

数据仓库分层1、分层结构数仓传统上分层基本都是三层，源数据层（ODS 层）、数据仓库层（DW 层）、数据集市层（DM 层）。而我们这个项目中将数据仓库层进而划分了两个层数据明细层（DWD 层）和数据服务层（DWS 层）。即该项目中一共划分为 4 层 ODS 层、DWD 层、DWS 层、DM 层我们采用维度建模，考虑到三范式同时为了方便逻辑计算，可以打破三范式限制。源数据信息在 ODS 层，事实表和维度表存储在 DWD 层、轻量聚合的结果表存储在 DWS 层，高度聚合的结果表（即我们的需求）

2020-09-03 19:03:44 387

原创 Spark Streaming整合Flume

poll方式：package test01import org.apache.spark.SparkConfimport org.apache.spark.streaming.dstream.ReceiverInputDStreamimport org.apache.spark.streaming.flume.{FlumeUtils, SparkFlumeEvent}import org.apache.spark.streaming.{Seconds, StreamingContext}ob

2020-08-23 22:36:24 233

原创 Spark Streaming 简单实例一统计hdfs文件单词

使用Spark Streaming统计hdfs文件单词代码package test01import org.apache.spark.SparkConfimport org.apache.spark.streaming.dstream.DStreamimport org.apache.spark.streaming.{Seconds, StreamingContext}import test01.Demo01.sscobject HDFSInputStreamDemo extends Ap

2020-08-23 22:16:12 219

原创 SparkStream 读取kafka 做消费者读取kafka生产者传的数据

代码如下package steamingimport org.apache.spark.SparkConfimport org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream}import org.apache.spark.streaming.kafka.KafkaUtilsimport org.apache.spark.streaming.{Seconds, StreamingContext}object Stre

2020-08-19 19:46:49 466

原创 flume通过双channels 和双 sinks 分别传输数据到kafka和hdfs

以train.csv 为例 .conf文件如下train.sources = trainSourcetrain.channels = kafkaChannel hdfsChanneltrain.sinks = kafkaSink hdfsSinktrain.sources.trainSource.type = spooldirtrain.sources.trainSource.spoolDir = /opt/kb07file/flumeFile/traintrain.source

2020-08-19 19:12:59 288

原创使用flume 读取数据 sink到kafka中消费者读出

用flume 读取users.csv 传出到kafka读取 .conf 文件如下users.sources=usersSourceusers.channels =usersChannelusers.sinks =usersSinkusers.sources.usersSource.type = spooldirusers.sources.usersSource.spoolDir=/opt/kb07file/flumeFile/usersusers.sources.usersSo

2020-08-19 19:04:11 374

原创 kafka 启动创建查看笔记

kafka-2.11-2.0.0[root@lijia1 config]# vi ./server.propertiesbroker.id=0advertised.listeners=PLAINTEXT://192.168.153.141:9092log.dirs=/opt/bigdata/kafka211/kafka-logszookeeper.connect=192.168.153.141:2181delete.topic.enable=true// 配置环境变量export KAFK

2020-08-19 18:30:18 315

原创 flume Java自定义过滤器的定义与使用

过滤器Java代码：import org.apache.flume.Context;import org.apache.flume.Event;import org.apache.flume.interceptor.Interceptor;import java.util.ArrayList;import java.util.List;import java.util.Map;public class InterceptorDemo implements Interceptor {

2020-08-17 17:31:16 307

原创 flume 监控文件夹的.conf文件

taildir.confa1.sources = r1a1.sinks = k1a1.channels = c1a1.sources.r1.type = TAILDIRa1.sources.r1.filegroups=f1 f2a1.sources.r1.filegroups.f1=/root/data/tail_1/example.loga1.sources.r1.filegroups.f2=/root/data/tail_2/.*log.*a1.sources.r1.position

2020-08-17 15:07:56 413

原创 flume 命令行从本地读取输出csv文件

logger输出csv文件events.confevents.sources =eventsSourceevents.channels =eventsChannelevents.sinks= eventsSinkevents.sinks.eventsSink.type= loggerevents.sources.eventsSource.type =spooldirevents.sources.eventsSource.spoolDir = /opt/kb07file/flumeFile/

2020-08-17 15:02:36 865

原创 flume file到hdfs

user_friends.sources = userFriendsSourceuser_friends.channels = userFriendsChanneluser_friends.sinks = userFriendsSinkuser_friends.sources.userFriendsSource.type = spooldiruser_friends.sources.userFriendsSource.spoolDir = /opt/kb07file/flumeFile/user_

2020-08-17 14:57:20 158

转载 Spark：常用算子总结大全

park的算子的分类　从大方向来说，Spark 算子大致可以分为以下两类:1）Transformation 变换/转换算子：这种变换并不触发提交作业，完成作业中间过程处理。　Transformation 操作是延迟计算的，也就是说从一个RDD 转换生成另一个 RDD 的转换操作不是马上执行，需要等到有 Action 操作的时候才会真正触发运算。2）Action 行动算子：这类算子会触发 SparkContext 提交 Job 作业。　　Action 算子会触发 Spark 提交作业（Job），并将

2020-08-11 19:19:09 1828

原创 Anaconda3安装以及Jupyter和pyspark集成 ---centos7中安装python3

centos7中安装python31.安装相应的编译工具在root用户下(不要用普通用户,麻烦),全部复制粘贴过去,一次性安装即可.yum -y groupinstall "Development tools"yum -y install zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel readline-devel tk-devel gdbm-devel db4-devel libpcap-devel xz-devel

2020-08-10 18:22:00 399

原创 spark 在maven 打包到linux环境下运行

1maven打包的xml文件 <build> <sourceDirectory>src/main/scala</sourceDirectory>  <plugins> <plugin> <groupId>net.alch

2020-08-06 15:16:28 479

原创 hdfs学习路程—

配置好hadoop环境后的第一个demomkdir inputcp etc/hadoop/*.xml inputbin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0-cdh5.14.2.jar grep /input /output ‘dfs[a-z.]+’hdfs dfs -cat /output/part-r-00000在网页中：

2020-07-23 14:15:03 119

原创 Sqoop 数据迁移

Sqoop是一个用于在Hadoop和关系数据库之间传输数据的工具将数据从RDBMS导入到HadoopHDFS、Hive、HBase从Hadoop导出数据到RDBMS将导入或导出命令翻译成MapReduce程序来并行操作和容错目标用户系统管理员、数据库管理员大数据分析师、大数据开发工程师等MySQL数据导入HDFS准备工作：mysql中建库建表mysql> create database retail_db;mysql> use retail_db;mysql> so

2020-07-23 14:13:51 280

原创 Sqoop 的环境搭建

一、Sqoop 安装安装 Sqoop 的前提是已经具备 Java 和 Hadoop、Hive、ZooKeeper、HBase的环境1.1 下载并解压1.上传安装包 sqoop-1.4.6-cdh5.14.2.tar.gz 到虚拟机中2.解压 sqoop 安装包到指定目录 tar -zxf sqoop-1.4.6-cdh5.14.2.tar.gz -C /opt/3改名 mv sqoop-1.4.6-cdh5.14.2 sqoop4.配置环境变量 vi /etc/profile添加如下内容：

2020-07-23 13:58:23 209

原创 YAEN学习

YARN 的前世今生：hadoop1.x版本中最大的问题就是资源问题对数据的处理和资源调度主要依赖MapReduce完成只能运行MapReduce程序JobTracke负责资源管理和程序调度，压力较大hadoop2.x版本添加yarn主要负责集群资源管理YARN概述YARN 核心思想是将资源管理和任务的监控和调度分离通用的资源管理系统，可为不同的应用（MapReduce，spark ）YARN的基本架构核心组件YARN 的架构是master、slaves的主从架构YARN架构核心组件

2020-07-23 13:50:04 469

原创 HBASE简介及底层存储原理

HBase概述HBase是一个领先的NoSQL数据库是一个面向列存储的NoSQL数据库是一个分布式Hash Map，底层数据是Key-Value格式基于Google Big Table论文使用HDFS作为存储并利用其可靠性HBase特点数据访问速度快，响应时间约2-20毫秒支持随机读写，每个节点20k~100k+ ops/s可扩展性，可扩展到20,000+节点高并发应用场景：1、增量数据-时间序列数据高容量，高速写入HBase之上有OpenTSDB模块，可以满足时序类场景2、信

2020-07-20 18:23:22 3227

原创 settings.xml配置及如果创建maven工程依赖文件报红解决方法

重设maven/conf/settings.xml文件<?xml version="1.0" encoding="UTF-8"?><!--Licensed to the Apache Software Foundation (ASF) under oneor more contributor license agreements. See the NOTICE filedistributed with this work for additional information

2020-07-14 16:00:39 3958

原创 hbase-site.xml、hive-site.xml 的配置

hbase-env.sh#The java implementation to use. Java 1.7+ required.export JAVA_HOME=/opt/jdk#Tell HBase whether it should manage it's own instance of Zookeeper or not.export HBASE_MANAGES_ZK=falsehbase-site.xml<property> <name>hb

2020-07-12 12:55:40 672

原创 HIVE入门知识二、建表，查询，运用等

Hive建表语句创建内部表：– 创建一个内部表create table if not exists student(id int, name string)row format delimited fields terminated by ‘\t’stored as textfilelocation ‘/home/hadoop/hive/warehouse/student’;– 查询表的类型desc formatted student;Hive建表语句解析：Hive建表高阶语句

2020-07-08 19:49:09 413

原创 HIVE入门知识一

什么是Hive?基于Hadoop的数据仓库解决方案将结构化的数据文件映射为数据库表提供类sql的查询语言HQL（Hive Query Language）Hive让更多的人使用HadoopHive成为Apache顶级项目Hive始于2007年的Facebook官网：hive.apache.orgHive的优势和特点提供了一个简单的优化模型HQL类SQL语法，简化MR开发支持在不同的计算框架上运行支持在HDFS和HBase上临时查询数据支持用户自定义函数、格式成熟的JDBC和ODBC

2020-07-08 00:40:50 175

原创 core-site.xml、hdfs-site.xml、yarn-site.xml 和一些jdk等环境变量

hadoop +zookeeper的文件配置hadoop-env.sh：'#' The java implementation to use.export JAVA_HOME=/opt/jdk1.8.0_221core-site.xml<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://mycluster</value&gt

2020-07-07 19:17:47 1228

原创 MySQL触发器、视图、函数和存储过程

–触发器：1、触发器用来在某些操作时shi，“自动”执行一些操作。2、当insert delete update设置触发器之后，执行insert delete update操作就会自动触发设置的内容。–语法：create trigger 触发器名 before|after 事件on 表名 for each row 触发器语句;a、触发器名建议为trigger_xxx，这样便于区分，触发器名不能重复。b、before|after 代表触发器语句执行时间，如果是before,就是在inse

2020-07-06 10:31:26 199

原创 2020-04-30 使用DQL命令查询数据（二）

2020-04-30 使用DQL命令查询数据（二）！！！！重点记忆SELECT [ALL | DISTINCT]{ * | table.* | [ table.field1 [ as alias1] [,table.field2 [as alias2]][,…]] }FROM table_name [ as table_ alias ] [left|out|inner join table_name2] #联合查询[ WHERE … ] #指定结果需满足的条件[ GROUP BY …] #

2020-07-06 10:30:40 217

原创 2020-04-29 使用DQL命令查询数据（一）

SELECT [ALL | DISTINCT]{ * | table.* | [ table.field1 [ as alias1][,table.field2 [as alias2]][,…]] }FROM table_name [ as table_ alias ][left|out|inner join table_name2] #联合查询[ WHERE … ] #指定结果需满足的条件[ GROUP BY …] #指定结果按照哪几个字段来分组[HAVING …] #过滤分组的记录必须满足

2020-07-06 10:29:13 283

原创大数据-hdfs的简单概述

HDFS特点HDFS优点：支持处理超大文件可运行在廉价机器上高容错性流式文件写入HDFS缺点：不适合低延时数据访问场景不适合小文件存取场景不适合并发写入，文件随机修改场景简单的一些l命令创建存放数据文件的目录：hdfs dfs -mkdir /hdfs/shellhdfs dfs -ls /hdfs/shell将通讯数据上传到HDFS并查看hdfs dfs -put /home/hadoop/data/mobile.txt /hdfs/shellhdfs dfs -text

2020-06-30 19:52:45 390

原创 JavaAPI操作HDFS文件

创建maven工程new project -Maven quickstart配置prm.xml<dependencies> <dependency> <groupId>junit</groupId> <artifactId>junit</artifactId> <version>4.12</version> <scope>test</

2020-06-30 19:32:17 357

原创 hadoop集群及HBase+ZooKeeper+Hive完全分布式集群部署安装

这里说复制虚拟机：vi /hadoop/hdfs-site.xmlvi etc/hadoop/slaves :hadoop04hadoop05hadoop06在传到其他两个格式化HDFShadoop namenode -format启动hadoopstart-all.sh（jps查看进程）安装ZooKeeper修改zookeepr/conf/zoo.cfg）（修改完后改名）配置里面的server是zookeeper服务器的主机名。# The number of

2020-06-28 22:50:59 614

空空如也

空空如也