砥砺前行的疯子-CSDN博客

原创不忘初心，砥砺前行

参加工作好几年了遥想在大学的时候的自己每天都努力奋发渴望着新的技术知识从开始学习C++，java，框架，数据库，web，框架源码，数据库底层一步一步慢慢的爱上了编程曾以为自己会不忘初心，砥砺前行但工作了这几年，每天简单的工作磨灭了自己的那颗初心无法将自己那份所有的才能献给工作多次的上线也没有了当初的喜悦反而简单重复的工作，让自己忘记了很多东西生而为人！即使不能在历史的长...

2019-04-01 18:52:19 2837 2

原创处理大规模数据时的 Spark 踩坑经验

以上是我在使用 Spark 处理大规模数据时遇到的一些问题和解决方案。在处理大规模数据时，应该注意内存溢出、网络问题、数据倾斜和 GC 停顿等问题，并根据实际情况采取相应的解决方法。

2023-04-06 11:20:37 1620

1、SQL 代码层面优化Step1、阻塞调度的长耗时 SQL 提取Step2、划分长耗时 SQLStep3、对长耗时 SQL 逐个分析1.1、数据倾斜优化1.1.1、sqoop 导入数据时的倾斜：经过分析发现，数据倾斜是因为sqoop 同步数据时，采用的是sys_time字段进行数据进行split的，客户可能在某一时间对业务数据库进行过导入，从而导致很多数据的sys_time 在同一时间。所以sqoop 导入的数据，即存在了数据倾斜解决办法：将sqoop split_by 的..

2022-05-26 12:44:23 3147

原创经典Java练习题 Mars Rover

假想你在火星探索团队中负责软件开发。现在你要给登陆火星的探索小车编写控制程序，根据地球发送的控制指令来控制火星车的行动。火星车收到的指令分为：初始化信息：火星车的降落地点（x, y）和朝向（N, S, E, W）信息；移动指令：火星车可以前进（M）,一次移动X格；移动指令：火星车可以前进（B）,一次移动X格；转向指令：火星车可以左转90度（L）或右转90度（R）。由于地球和火星之间的距...

2020-01-14 16:01:24 1244

原创 Flink 滑动窗口起始位置解析

1、假设我们敞口长度为15s，每次滑动5s测试数据为sensor_1 1547718199 16.80018327300259sensor_1 1547718200 26.22222222222221sensor_1 1547718201 35.402984393403084sensor_1 1547718202 46.720945201171228sensor_1 154771820...

2020-01-10 11:24:09 819

原创 Idea快捷键-开发中常用-死记硬背系列

Ctrl + D 复制光标所在行Ctrl + Y 删除光标所在行Alt + Enter 导包Alt + Enter 加变量名Shift + F6 重命名类Ctrl + / //注释Ctrl + Shift + / /* */注释Ctrl + Alt + T 选中的代码块抛异常、if、while、for等Alt + Insert 生成Constructor...

2019-09-14 18:04:04 341

原创 Flink CEP

本周头疼少了一更，下周补上FlinkCEP是在Flink之上实现的复杂事件处理（CEP）库。它允许你在×××的事件流中检测事件模式，让你有机会掌握数据中重要的事项。本文描述了Flink CEP中可用的API调用。首先介绍Pattern API，它允许你指定要在流中检测的模式，然后介绍如何检测匹配事件序列并对其进行操作。然后，我们将介绍CEP库在处理事件时间延迟时所做的假设。首先是要在你...

2019-09-01 19:54:13 672

原创 Flink_aggregate_process_state 案例

先说下模拟场景吧，统计日志数据中每分钟的IP访问量，取出访问量最大的五个值，每五秒更新一次解决思路：1、将日志中的时间转换为时间戳，作为EventTime2、所以调用assignTimestampsAndWatermarks将排序EventTime，并设置延迟watermark为60S3、构建滑动窗口4、自定义预聚合函数aggregate将数据转换为UrlViewCount格式5、自定...

2019-08-25 17:50:08 1544

原创 flink+watermark+eventtime案例

package com.thoughtworks.windowimport java.util.Propertiesimport com.thoughtworks.source.SensorReadingimport org.apache.flink.api.common.serialization.SimpleStringSchemaimport org.apache.flink.s...

2019-08-24 22:28:04 493

原创 Flink第一更——Source源接入

1）从Collection接入数据/** * 从集合中采集数据 */object FromCollection { def main(args: Array[String]): Unit = { // 1. 环境 val env: StreamExecutionEnvironment = StreamExecutionEnvironment.getExecution...

2019-08-16 00:48:31 819

原创 Spring Boot JPA实操，有手就行

1）application.yml 做出以下配置spring: datasource: driverClassName: com.mysql.jdbc.Driver url: jdbc:mysql://localhost:3306/lpf?useSSL=false&allowPublicKeyRetrieval=true username: root ...

2019-08-14 23:25:07 263

原创 spring-boot日志配置及自定义日志

1）日志配置在application.propertise里面进行设置，如下#日志级别# 由低到高trace < debug < info < warn < error# 调整指定package级别logging.level.com.thoughtworks=trace#指定日志目录#在当前磁盘的跟路径下创建spring文件夹和里面的log文件夹,使用sp...

2019-08-14 00:57:52 467

原创 lombok简介，及使用

一: lombok简介：Lombok能以简单的注解形式来简化java代码，提高开发人员的开发效率。例如开发中经常需要写的javabean，都需要花时间去添加相应的getter/setter，也许还要去写构造器、equals等方法，而且需要维护，当属性多时会出现大量的getter/setter方法，这些显得很冗长也没有太多技术含量，一旦修改属性，就容易出现忘记修改对应方法的失误。Lombok能通...

2019-08-13 00:10:23 564

原创 JDK1.8——HashMap,ConCurrentHashMap——put(),get()源码解读

HashMap——put解读public V put(K key, V value) { // 对key进行hash取值传入putVal()方法 return putVal(hash(key), key, value, false, true); } /** * Implements Map.put and related method...

2019-07-09 22:21:11 609

原创 JVM虚拟机优化

1，到官网下载好tomcat的包官网地址：https://tomcat.apache.org/download-80.cgi2、上传到linux，解压，进入tomcat-8.5.42/conf/tomcat-users.xml添加管理员用户3、进入tomcat-8.5.42/webapps/manager/META-INF/context.xml注释掉下面的内容4、进入tomcat-...

2019-07-01 22:29:17 363

原创 HBase思维导图

HBase思维导图

2019-06-28 23:45:14 1252

原创 Hive思维导图

放弃很容易，但我喜欢坚持！！！！

2019-06-25 21:12:51 1884 1

原创 HadoopHA模式图解

HadoopHA图解

2019-06-24 18:06:49 1635

原创 HDFS读写流程>>图解+描述

读流程

2019-06-24 18:05:49 1594

原创 Hadoop思维导图

读流程写流程

2019-06-24 18:01:19 2930

原创 YARN任务流程，超级详细！！！！！！！！！！！！！

2019-06-24 11:45:31 3655

原创 Spark之Shuffle机制和原理+源码解析

一、什么是spark shufflea). 我们举个例子reduceByKey会产生shuffle对吧，此算子会把上一个RDD每一个相同key的value聚合在一起形成一个新的value，生成一个新的RDD，类型还是<key,value>形式，这样每一个key对应的就是一个聚合起来的value。b). 每一个key对应的value不一定在同一个partition上，也不可能在同一个...

2019-06-22 22:18:44 2271

原创 Spark----RDD,DF,DS效率比较

今天听一个计数大牛说DS>RDD>DF 特写了代码测试下三个运行的速度，代码如下，运行结果在代码后面package com.huawei.spark.areaRoadFlowimport java.util.UUIDimport org.apache.spark.rdd.RDDimport org.apache.spark.sql.{Dataset, SparkSessi...

2019-06-12 20:26:31 2814 1

原创 kafka搭建，及指令

a)kafka搭建 1、解压 2、修改配置/software/kafka_2.11-0.11.0.3/config/server.properties broker.id=0 log.dirs=/var/huawei/kafka-logs zookeeper.connect=node03:2181,node...

2019-06-02 23:27:32 1720

原创 Spark集群搭建，任务提交

搭建spark2.3.1基于HDFS_onyarn搭建sparkHA必须基于JDK1.8下面是每台节点上配置的角色node01 node02 node03 node04 node05master(active) worker worker 客户端 master(standby)1、解压 2、到/software/spark-2.3.1/...

2019-05-28 23:03:13 2108

原创 Scala中把list中的一个个对象当参数传入方法中

object Test { def main(args: Array[String]): Unit = { val list1 = List(1,2) val list2 = List(1,2,3,4,5) val list3 = List(1,2,3,4,5,6,7,8,9,10) test(list1:_*) test(list2:_*) t...

2019-05-24 23:54:35 4490

原创图解YARN任务调度，资源调度

yarn任务调度，资源调度1、客户端去ResourceManager取任务编号2、ResourceManager在HDFS上创建个以任务编号命名的目录3、客户端经行输入输出检查，计算切片信息等4、客户端把jar，conf，切片信息上传到HDFS以任务编号命名的目录5、客户端通知ResourceManager启动APPMaster进行资源调度6、ResourceManager选取一台有...

2019-05-24 23:36:21 4672

原创 yarn作业提交流程，及各个角色的作用

一、作业流程 1、客户端到MR申请作业编号检验输入目录是否存在检验输出木木是否为空计算切片信息（偏移量，数据大小，放在那些DN上） 2、将conf，jar，切片信息发送到HDFS以作业编号命名的目录下 3、向RM发送请求提交作业 4、 RM调度NM，让NM分配一个容器，运行MRAppmaster程序 5、 MRAppmaster收集HDFS上的...

2019-05-15 20:33:58 5090

原创 Cloudera-Manager安装配置详解

一、系统环境准备 1、网络配置 vi /etc/sysconfig/network NETWORKING=yes HOSTNAME=node03 vi /etc/hosts 192.168.126.101 node01 192.168.126.102 node02 192.168.126.103 node03 192.168.126....

2019-05-13 18:49:54 6279

原创冒泡排序，及改进方式，性能优化400%>>>附图解加源码

首先源码附上，源码中带有注释，看不懂没关系，源码后面附带图解，最后附上代码效率提升图源码如下：package com.huawei.GC;import java.util.ArrayList;import java.util.List;/** * @author Lpf. * @version 创建时间：2019年5月11日上午10:33:51 */public class ...

2019-05-11 12:18:16 4486

原创斐波那契数列

package com.huawei.GC;import java.util.Scanner;/** * 斐波那契数列 * * @author Lpf. * @version 创建时间：2019年5月10日下午1:35:58 * @fib {1,1,2,3,5,8,13,21,24,45,69,114,183} * @位数 {1,2,3,4,5,6,7, 8, 9, 10,...

2019-05-10 14:48:58 4875

原创 hbase性能优化完全版

HBase性能优化方法总结（一）：表的设计表的设计1.1 Pre-Creating Regions默认情况下，在创建HBase表的时候会自动创建一个region分区，当导入数据的时候，所有的HBase客户端都向这一个region写数据，直到这个region足够大了才进行切分。一种可以加快批量写入速度的方法是通过预先创建一些空的regions，这样当数据写入HBase时，会按照region...

2019-04-29 20:34:11 10107

原创 Hbase原理，Hbase架构，Hbase的流程处理——>>深入细读

图一图一：hbase的平面架构图角色划分 client：包含访问HBase的接口并维护cache来加快对HBase的访问 zookeeper：保证任何时候，集群中只有一个活跃master 存贮所有Region的寻址入口。实时监控Region server的上线和下线信息。并实时通知Master 存储HBase的schema和table元数据 HMaster：为R...

2019-04-27 15:23:00 6364

原创 hive深度优化，提高效率50%不再是幻想——>>>>>超级详细

#开启本地模式set hive.exec.mode.local.auto=true; #注意：表示加载文件的最大值，若大于该配置仍会以集群方式来运行 hive.exec.mode.local.auto.inputbytes.max默认值为128M #开启并行模式当硬件资源足够，查询数量大，当各个子查询无关，可以考虑开启set hive.exec.parallel=true; #...

2019-04-27 13:06:26 6941

原创 hadoop_on_yarn+zookeeper+hive手把手一条龙教你搭建！！！

首先准备好zookeeper，jdk，hadoop，hive的安装包1.时间同步yum install ntp 启动NTP时间服务器：service ntpd start 设置NTP开机自动启动：chkconfig ntpd on 查看NTP是否正常运行：chkconfig | grep ntp 2、2.node1,2,3,4做免密钥登录 ssh-keygen -t dsa -P ...

2019-04-23 23:59:05 3520

原创手把手教学storm分布式搭建，及java代码对集群的操作，其实流处理也很简单！！！！！

storm完全分布式搭建1、配置JDK2、配置zookeeperhttps://blog.csdn.net/lpf787887/article/details/893232273、将storm解压到/opt tar -zxf zookeeper-3.4.6.tar.gz -C /opt/4、配置：vi /opt/apache-storm-0.10.0/conf/storm.yaml...

2019-04-21 17:53:34 3939

原创 redis分布式集群的搭建，手把手教学，照做包会>>linux上搭建

1、下载：redis-3.0.0.tar.gz2、上传，解压tar -zxf redis.tar.gz3、编译安装makemake install PREFIX=/opt/redis34、添加REDIS_HOMEexport REDIS_HOME=/opt/redis3export PATH=PATH:PATH:PATH:REDIS_HOME/bin5、cp /root/red...

2019-04-17 21:51:17 3740

原创 Linux上redis的安装及客户端的操作超级详细，无脑学会

1、安装gcc tclyum install gcc tcl -y2、上传redis的tar包 2.83、解压tar -zxf redisxxx.tar.gz4、进到redis目录执行编译：make5、安装：make install PREFIX=/opt/redis6、配置REDIS_HOMEexport REDIS_HOME=/opt/redisexport PATH=PAT...

2019-04-16 23:02:14 6578

原创 zookeeper安装>>客户端操作指令>>socket加zookeeper代码实现一步到位！！！！！

0、安装并配置jdk 1.71、下载zookeeper2、同步时间ntp3、解压zookeeper到/opt4、配置dataDirserver.x=nodex:2888:3888server.x=nodex:2888:3888server.x=nodex:2888:3888server.x=nodex:2888:3888server.x=nodex:2888:38885、创建...

2019-04-15 23:09:06 3980

原创最经典的大数据案例解析（附代码）

首先我们来说说需求假设以上就是我们需要处理的数据,我们需要计算出每个月天气最热的两天。首先我们对自己提出几个问题1.怎么划分数据，怎么定义一组？？？2.考虑reduce的计算复杂度？？？3.能不能多个reduce？？？4.如何避免数据倾斜？？？5.如何自定义数据类型？？？----记录特点每年每个月温度最高2天1天多条记录怎么处理？----进一步思考年月分组温度升序...

2019-04-13 22:45:30 15218

空空如也

空空如也