不想当和尚-CSDN博客

原创日志数据操作--json转成表格式

日志处理流程，json转成表类型格式。日志数据前有一时间戳，后面才是json格式数据。导入SPARKSQL所需要的包scala> import spark.implicits._import spark.implicits._scala> import org.apache.spark.sql.functions._import org.apache.spark.sql.functions._scala> import org.apache.spark.sql._impor

2020-10-15 18:42:20 342

原创 spark算子、DF、hive、hbase操作

–使用rdd和sparkSQL业务查询sparkSQL创建datafrom:1.数据准备（10 分）请在 HDFS 中创建目录/app/data/exam，并将 meituan_waimai_meishi.csv 文件传到该目录。–通过 HDFS 命令查询出文档有多少行数据。hdfs dfs -cat /app/data/exam/meituan_waimai_meishi.csv | wc -l2.使用 Spark,加载 HDFS 文件系统 meituan_waimai_meishi.csv

2020-10-15 08:51:14 491

原创算法大悲赋之KNN算法

一、描述首先，KNN算法是一个初级算吧，书面解释是： KNN是通过测量不同特征值之间的距离进行分类。它的思路是：如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别，其中K通常是不大于20的整数。KNN算法中，所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。太繁琐晦涩了，所以我用KNN算法的实际事例来分部解释。二、秘籍部分算法是用Python开发的，首先导包，不解释#导入

2020-09-15 19:30:07 223

原创微小型数仓案例整理

一、MySQL导入数据数仓是建立在 hive 上，有两层（ODS 层 rds 库）和 DW 层（tds 库），存储格式日期维度 textfile，其他 orc。可使用命令导入sql文件。建mysql表语句：CREATE DATABASE IF NOT EXISTS sales_source DEFAULT CHARSET utf8 COLLATE utf8_general_ci; USE sales_source;DROP TABLE IF EXISTS customer;DROP TABL

2020-09-03 16:02:28 433

原创 flume常用操作conf代码

一、数据写入到kafka中event_attendees.sources = event_attendeesSourceevent_attendees.channels = event_attendeesChannelevent_attendees.sinks = event_attendeesSinkevent_attendees.sources.event_attendeesSource.type = spooldirevent_attendees.sources.event_attende

2020-08-24 18:47:15 174

原创将表格数据从kafka提取出，编辑后再存入kafka。

一、功能需求将表格去掉表头，分成map型数据二、代码import org.apache.kafka.common.serialization.Serdes;import org.apache.kafka.streams.*;import org.apache.kafka.streams.kstream.KStream;import java.util.ArrayList;import java.util.List;import java.util.Properties;import j

2020-08-24 18:32:12 381

原创 Spark初级题目练习

一、有以下两个文件，字段分别为：orderid(订单ID),userid(用户ID),payment(支付金额),productid(商品ID)。使用Spark完成以下需求。file1.txt1,1768,50,1552,1218,600,2113,2239,788,2424,3101,28,5995,4899,290,1296,3110,54,12017,4436,259,8778,2369,7890,27file2.txt100,4287,226,233101,6562,4

2020-08-21 14:02:08 1408

原创 Kafka之Proreducer和Consumer（java编写）

Proreducerimport org.apache.kafka.clients.producer.KafkaProducer;import org.apache.kafka.clients.producer.ProducerConfig;import org.apache.kafka.clients.producer.ProducerRecord;import org.apache.kafka.common.serialization.StringSerializer;import java

2020-08-18 18:50:46 214 1

原创 kafka安装整理，附带常用命令

// 配置环境变量export KAFKA_HOME=/opt/kafkaexport PATH=$PATH:$KAFKA_HOME/bin// 启动Kafka普通启动和后台启动kafka-server-start.sh ./config/server.propertieskafka-server-start.sh -daemon ./config/server.properties// 创建topickafka-topics.sh --create --zookeeper 192.16

2020-08-18 18:38:53 150

原创 Spark题目练习

建表：private val schema = StructType(Array( StructField("student_id", IntType, true), StructField("student_name", StringType, true), StructField("birth", StringType, true), StructField("sex", StringType, true) ))val rdd = sc.makeRDD(Array

2020-08-17 17:17:04 360

原创 Spark处理日志文件事例

import org.apache.commons.lang.StringUtilsimport org.apache.spark.rdd.RDDimport org.apache.spark.sql.types.{StringType, StructField, StructType}import org.apache.spark.sql.{DataFrame, Dataset, Row, SparkSession}object LogWork extends App{ //todo 1、创

2020-08-17 17:13:36 259

原创 Flume日志收集系统的常用命令和常用操作

一、拦截器java写完，打包放入flume的lib文件夹下。package com.nj;import org.apache.flume.Context;import org.apache.flume.Event;import org.apache.flume.interceptor.Interceptor;import java.util.ArrayList;import java.util.List;import java.util.Map;public class Interc

2020-08-17 17:11:56 329

原创 Scala函数大全整理，最易理解

注：aggregate、collect、collectFirst、flatMap、fold++描述：c=a++b。合并集合，并返回一个新的序列，新数组包含两个集合的内容 val a=Array(12,13,14,15,16) val b=Array(9,8,7,6,5) val c=a++b println(c.mkString("|")) //12|13|14|15|16|9|8|7|6|5++:描述：c=a++:b。同上，c序列的类型有冒号右边的b决定 va

2020-07-31 14:14:39 677

原创 hive重点函数整理

注：以下范列中数据为举例假设，不是实时数据。一、数字函数1、round(double a)描述：返回 double 类型的整数值部分（遵循四舍五入）select round(3.1415926); --> 3select round(3.5); --> 42、round(double a,int b)描述：返回指定位数 b 的 double 类型select round(3.1415926, 4); --> 3.14163、floor(double a)描述：返回

2020-07-20 15:52:12 178

原创 hive-UDF函数使用方法范例整理

一、hive函数的使用|返回值|函数|事例| string | concat(string|binary A, string|binary B…) | ||–|--|–|| | |二、hive自定义函数三、hive性能优化

2020-07-16 15:02:19 289

原创 hadoop高可用集群个人搭建整理

一、安装前的配置要求hadoop高可用集群规划，请保证 Hadoop 完全分布式和 ZooKeeper 完全分布式环境已经安装完成。二、开始安装我这边是用了三台虚拟机，主机名分别是hadoop01，hadoop02，hadoop03。我是设置hadoop01是主机，hadoop02是副主机。更改hadoop下的文件配置。打开文件：vi core-site.xml<configuration> <property> <name>fs.defaul

2020-07-06 19:14:58 168

原创集合框架内容整理

集合框架与泛型如果并不知道程序运行时会需要多少对象，或者需要更复杂方式存储对象——可以使用Java集合框架集合Collection的特点:无序,可重复列表List的特点:有序(插入顺序),可重复ArrayList:是List的一个实现类,底层由数组构成实现了长度可变的数组，在内存中分配连续的空间，遍历元素和随机访问元素的效率比较高扩容数组时,新数组长度是原来的1.5倍增:add(值),addAll(集合对象)删:remove(下标),remove(值),removeAll(集合对象)改;s

2020-07-01 20:01:36 160

原创 Java、数据库、大数据。。面试题目整理（不断更新）！！！

一、Java部分选择题部分1.以下关于 abstract 关键字的说法，正确的是（D）。A.abstract 可以与 final 并列修饰同一个类。B.abstract 类中不可以有 private 的成员。C.abstract 类中必须全部是 abstract 方法。D.abstract 方法必须在 abstract 类或接口中。2.以下方法，（B）不是对 add 方法的重载。//重载和方法返回值有关联，和返回值无关系。public class Test{public void add(

2020-07-01 19:39:18 427

原创 MapReduce原理及初步编程

什么是MapReduceMapReduce是一个分布式计算框架：将大型数据操作作业分解为可以跨服务器集群并行执行的单个任务。起源于Google；适用于大规模数据处理场景。每个节点处理存储在该节点的数据。每个job包含map和reduce两部分。MapReduce的设计思想分而治之简化并行计算的编程模型构建抽象模型：Map和Reduce开发人员专注于实现Mapper和Reducer函数隐藏系统层细节，开发人员专注于业务逻辑实现。MapReduce特点优点：易于编程，可扩展性，高容错性，高吞

2020-07-01 18:46:25 187

原创 zookeeper，hbase，hive配置搭建。

一.ZooKeeper进入zookeeper文件夹下，配置全局环境变量: vi /etc/profile,在打开的文件中添加如下两行:export ZK_HOME=/opt/zookeeperexport PATH=$PATH:$ZK_HOME/bin输入: source /etc/profile,使其生效输入: cd /opt/zookeeper/conf/进入配置文件的目录创建该文件: vi zoo.cfg插入内容:# The number of milliseconds of eac

2020-06-28 17:22:49 380

原创 Hadoop和集群配置

一、Hadoop配置虚拟机配好连上moba后：生成秘钥： ssh-keygen -t rsa -P “”cat /root/.ssh/id_rsa.pub >> /root/.ssh/authorized_keys开启远程免密登录配置ssh-copy-id -i .ssh/id_rsa.pub -p22 root@192.168.56.122远程登录[ssh -p 22 root@192.168.56.122往远程服务器拷贝文件注：没有建立集群的话，下一步不需要执行操作拷贝。

2020-06-28 15:54:25 344

原创 ELK集群的搭建和logstash实例

ELK集群一、复制虚拟机、修改主机名和主机列表1．网络地址（1）输入：vi /etc/sysconfig/network-script/ifcfg-enp0s3 修改网络ip地址2．主机名（1）hostnamectl set-hostname bigdata01（2）输入命令vi /etc/hostname进入内容，也可以修改为bigdata01（3）重启虚拟机： reboot（4连接moba3．主机列表（1）vi /etc/hosts 内容增加主机的i

2020-06-22 18:27:23 282

原创 ELK的详细安装配置，照着复制粘贴即可

一、ES安装前的准备(elk安装包版本要求一致)elasticsearch-6.2.2.tar.gzelasticsearch-head-master.zipkibana-6.2.2-linux-x86_64.tar.gzlogstash-6.2.2.tar.gznode-v8.9.1-linux-x64.tar.gz二、ELK的安装1．把下载好的安装包，再加上jdk包，拖拽到/software目录中2．输入：yum install -y unzip 下载解压缩工具3．

2020-06-18 17:34:26 361

原创 Linux软件等安装。

安装之前的准备工作登录Linux系统；在Linux界面关闭防火墙，代码：输入systemctl restart network 重启网络输入systemctl stop firewalld 关闭防火墙输入systemctl disable firewalld 禁用防火墙使用moba连接虚拟机,若连接不上重启网络服务service network restart 这里事先提供一些代码用法介绍：tar -zvxf 包名 --解压安装软件包rpm -ivh 软件包路径 --直接安装软件包yu

2020-06-17 16:23:08 117

原创初学数据库整理

数据库查询–模糊查询select * from 表名 where 字段 like "*%"；–in 等值判断select * from 表名 where 字段 in(70,60,55)；–链接查询select r.*,s.字段名 from 表名 result r, student s;–内连接select r.*,s.字段名 from 表名 result r, student s where r.字段名=s.字段名;select r.*,s.字段名 from 表名 resul

2020-06-17 08:41:39 196

原创集合框架与泛型整理

集合框架与泛型–>如果并不知道程序运行时会需要多少对象，或者需要更复杂方式存储对象——可以使用Java集合框架集合Collection的特点:无序,可重复列表List的特点:有序(插入顺序),可重复ArrayList:是List的一个实现类,底层由数组构成实现了长度可变的数组，在内存中分配连续的空间，遍历元素和随机访问元素的效率比较高扩容数组时,新数组长度是原来的1.5倍增:add(值),addAll(集合对象)删:remove(下标),remove(值),removeAll(集合对象

2020-06-17 08:40:55 156

原创 Linux系统命令初学

一、Linux命令行cd 目录–绝对路径、相对路径…/ 代表返回上一级clear或者Ctrl+L 清屏查看当前绝对路径 :pwd查看当前目录下的内容：ls -a；-i；-l1.文件夹操作：增：mkdir 目录路径 mkdir -p ./1/2/3 创建多层文件夹删：rmdir 目录路径改：mv 原路径，新路径查2.文件命令：增：touch 文件路径删：rm -rf删库跑路改：mv 原路径，新路径查复制：cp 原路径，新路径3.目录结构：/ 系统根目录，~ 当前家目录

2020-06-16 18:23:21 189

原创个人整理myBatis与数据库操作

个人整理myBatis与数据库操作一、配置mybatis.xml和MapperConfig文件1、mybatis文件<?xml version="1.0" encoding="UTF-8" ?><!DOCTYPE configuration PUBLIC "-//mybatis.org//DTD Config 3.0//EN" "http://mybatis.org/dtd/mybatis-3-config.dtd"><configu

2020-06-15 19:26:29 139

原创数据库MySQL初步学习增删改

**数据库MySQL初步学习增删改**CREATE TABLE `c_student` ( `s_id` int(10) NOT NULL, `s_name` varchar(10) DEFAULT NULL, `s_gender` varchar(5) DEFAULT NULL, `c_id` int(10) DEFAULT NULL, PRIMARY KEY (`s_...

2020-04-28 15:43:39 152

lhmqy的博客