自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

大壮的博客

项目工作记录

  • 博客(204)
  • 资源 (5)
  • 问答 (1)
  • 收藏
  • 关注

原创 fatal: not in a git directory Error: Command failed with exit 128: git

brew 装redis报错:==>==>==>==>Fetching==>==>==>==>==>解决办法:既可。

2023-02-03 11:23:57 2198 1

原创 【Hive实用问题】行列转行、排序

行列转行、排序目前工作中因为编码风格的习惯,产生了部分需要适应的hive关键字,这里查阅了人民邮电出版社的《Hive编程指南》一书,同时做出一些介绍和总结,以备温故而知新。一,行列转换collect_wscollect_setcollect_listcollect_set去除重复元素;collect_list不去除重复元素+------+------------------------------...

2021-04-06 15:09:56 1040

原创 【HBase数据开发】最新centos安装python3X做数据分析

Linux下安装Python3在Linux系统中,一般都自带Python,不过Linux下自带Python大都是 2.x版本,如果我们想要使用python3的话,最好是再重新装一个Python3的环境,让python2和python3共存。注意:最好不要删除自带的python2,因为可能有其他地方依赖python2,直接删掉的可能会导致其他的问题。下载python3安装包本次我们要安装的是 Python 3.6.8,可以在 windows 下载好上传到 Linux服务器,也可以..

2020-08-13 10:06:04 407

原创 【HBase数据开发】解决Python类库Happyhbase读取数据中文乱码问题

首先说问题,我们遇到如下问题,python上传csv数据到hbase,用java读取没问题,但是使用python会遇到乱码问题。以下是贴图:这种就很讨厌,所以,来说解决办法:data = str(value).encode().decode('unicode-escape').encode('raw_unicode_escape').decode()print (key, str(data))ok,搞定了...

2020-08-06 18:18:14 668

原创 【HBase数据开发】集群搭建NameNode未格式化

1.报错如下Encountered exception loading fsimagejava.io.IOException: NameNode is not formatted.上午10点28:19.302分 WARN FSNamesystem Encountered exception loading fsimagejava.io.IOException: NameNode is not formatted. at org.apache.hadoop.hdfs.server.name

2020-07-22 10:49:55 3967

原创 【HBase数据开发】zookeeper启动不了

权限不够Invalid config, exiting abnormallyservice/zookeeper/zkserver.sh: lineSevere unrecoverable error, exitingjava.io.FileNotFoundException: /var/lib/zookeeper/version-2/snapshot.0 (Permission denied)等等问题,见招拆招好了。看下报错日志XX:OnOutOfMemoryErr..

2020-07-22 10:32:53 813

原创 【HBase数据开发】开发环境CDH问题-主机运行状况不良

现象就是晚上来了,发现抛了一个异常,主机运行状况不佳。删除agent目录下面的cm_guid文件,并重启失败节点的agent服务恢复。cm_guid文件的内容大概是uuid,用于唯一标示agent隶属于哪一个server。如图cd到每台主机的目录/var/lib/cloudera-scm-agent下,把cm_guid文件 删除。然后重启代理服务节点命令: service cloudera-scm-agent restart重启之后即可:...

2020-07-22 09:33:17 2637

原创 【HBase数据开发】数据挖掘项目基石——hbase调研与集成

一、背景随着公司业务规模的扩大,需求的不断提升,数据量级也在不停的增长,公司其他兄弟部门也需要越来越多的数据需求。为此,我们部门有如下任务需要完成:1.找到客户尽量多的数据,多维度分析客户,为客户建立合理的准确的数据标签2.涉及到合法采集数据的爬虫开发,这个交给算法工程师,用python爬下来,处理一下就行了,并不用我们出马。3.由于爬取数据格式比较混乱,所以这里计划存储到hbase中,后续由应用开发人员自行处理。4.相当一部分业务数据,量级已经超过10亿级别,需要后续计划存储到hbas

2020-07-17 17:33:43 845

原创 【个人springboot项目】打包部署

1.jdk不说了,网上一大堆2.mysql安装稍微说一下wget -i -c http://dev.mysql.com/get/mysql57-community-release-el7-10.noarch.rpmyum -y install mysql57-community-release-el7-10.noarch.rpmyum -y install mysql-community-serversystemctl start mysqld.servicesystemctl

2020-06-10 13:31:11 384

原创 【个人springboot项目】Spring Boot替换启动Logo、替换浏览器logo

Spring Boot替换启动Logo1.在src/main/resources下新建一个banner.txt2.打开网站http://patorjk.com/software/taag 生成想要的Logo成功。替换浏览器logo我使用的是这个网站:http://www.uugai.com/然后呢得到了png文件。去这个网站那ico文件https://tool.lu/favicon/把这个ico文件放到src/main/re...

2020-06-09 16:35:56 1110

原创 【sparkstreaming写hdfs调研】调研将kafka消息,从sparkstreaming写入hdfs

rdd.saveAsTextFile("hdfs://pro-app-175:9000/user/hadoop/spark/data")Protocol message end-group tag did not match expected tag显然是我端口弄错了,所以,改成8020即可。rdd.saveAsTextFile("hdfs://pro-app-175:8020/user/hadoop/spark/data")这里我们想将来hive可用,所以,...

2020-06-01 17:09:14 548

原创 【maxwell】企业级生产maxwell配置与排坑指南

本篇不讨论 canal和maxwell的区别,github上面可以看到源码,并且查看项目的基本背景。首先说报错吧,第一次遇到权限不够的情况:无法找到某某某不用的数据库这是因为maxwell给予binlog级别,且需要采集mysql实例创建maxwell数据库,所以,需要有全库的 *.* 赋权其次是及时全库表可读,也会需要 one of super replication这里要注意,super肯定是不能给的。可以赋 replication权限然...

2020-05-29 16:02:32 691

原创 【kafka】企业级kafka实操

kafka实际操作管理1.查看topickafka-topics --list --zookeeper pro-app-175:21812.kafka帮助kafka-topics--help3.demo创建topickafka-topics --create --zookeeper pro-app-175:2181 --replication-factor 2 --partitions 6 --topic log_monitor...

2020-05-28 17:09:50 425

原创 【温故而知新】Java:类加载过程、类加载时机、类加载器、类加载机制理解

一、类加载过程加载 链接 验证 准备 解析 初始化 1.加载加载是指,将类的class文件,读入到内存,并为其创建java.lang.Class文件本地文件系统加载class文件——绝大部分的示例代码 jar包中加载——例如jdbc 网络加载 java文件的动态加载类加载器无须“首次使用”加...

2020-04-28 16:42:20 238

原创 【温故而知新】谈一谈volatile禁止指令重排

首先,说一下,翻了一下Java编程思想,在第680页,对原子性、可变性的描述。有兴趣,可以翻一番 thinking in Java做了以下总结:1、volatile概念 volatile是java虚拟机提供的轻量级同步机制 volatile三个特性:保证可见性 不保证原子性 禁止指令重排2、volatile禁止指令重排(1)指令重排有序性:计...

2020-04-27 17:02:44 1000

原创 【温故而知新】多线程基本知识

多线程面试47题1、并发编程三要素?1)原子性原子性指的是一个或者多个操作,要么全部执行并且在执行的过程中不被其他操作打断,要么就全部都不执行。2)可见性可见性指多个线程操作一个共享变量时,其中一个线程对变量进行修改后,其他线程可以立即看到修改的结果。3)有序性有序性,即程序的执行顺序按照代码的先后顺序来执行。2、实现可见性的方法有哪些?synchroni...

2020-04-27 16:36:48 277

原创 【温故而知新】synchronized与lock的区别

1、线程与进程:一个程序最少需要一个进程,而一个进程最少需要一个线程线程是程序执行流的最小单位,而进程是系统进行资源分配和调度的一个独立单位2、Thread的几个重要方法:我们先了解一下Thread的几个重要方法。a、start()方法,调用该方法开始执行该线程;b、stop()方法,调用该方法强制结束该线程执行;c、join方法,调用该方法等待该线程结束。d、sl...

2020-04-27 10:26:17 277

原创 【足球分队代码】分享一个自己写的足球分组代码

有时候,大家报名,用一个格式报名,对不拉。然后这里面队伍,大家实力有高有低,个么都想和厉害的一起,咋办呢?交给随机分组程序来吧。分享我写的。# -*- coding: utf-8 -*-import randomif __name__ == "__main__": print("--------") # group =4 allSo...

2020-04-26 19:20:30 1782

原创 【温故而知新】Jvm与gc深入理解

学习了很久,作出以下总结,来温故而知新一、Jvm内存模型规范(jmm)1.cpu、高速缓存、主内存cpu读写磁盘速度较慢。cup读写朱内存速度目前也有瓶颈。cpu读写告诉缓存目前最快。但是遇到一个问题,就是高速缓存的一致性问题。各个高速缓存与朱内存都存在可见性、一致性问题。2.内存屏障——volatile 关键字作用:(1)阻止屏障两侧的指令重排序——...

2020-04-26 16:03:02 315

原创 【sqoop隐藏bug】sqoop从mysql导到hive时tinyint(1)格式自动变成Boolean解决方案

官网原文:27.2.5. MySQL: Import of TINYINT(1) from MySQL behaves strangelyProblem: Sqoop is treating TINYINT(1) columns as booleans, which is for example causing issues with HIVE import. This is because...

2020-04-22 19:24:21 460

原创 【解决hue只能导出10万的限制】

1.这里账户查一下。2.修改配置文件find / -name beeswax选择这个带src的。vim 该文件DOWNLOAD_CELL_LIMIT = Config(key='download_cell_limit',# 表格限制的大小,行数 * 列数。加一个0即可,修改后可下载的行数变成100万default=1...

2020-04-14 11:31:50 2592

翻译 【scalaRDD转df字段受限为22个】

一、背景1、在scala-2.10.x版本种,case class的元素超过22个以后即会编译报错2、有些业务场景下,需要超过22个元素的值二、如何解决Scala提供了解决方案,即使用类实现Product特质三、举例package com.ngaa.scala/** * @author Created by yangjf on 20180712. * ...

2020-04-09 13:47:05 710

原创 【sqoop隐藏密码方法】

1.创建sqoop job 数据增量导入作业但是这种方法把密码暴露在外面,不安全sqoop job --create myjob -- import --connect jdbc:mysql://192.168.56.1:3306/fangsou--username root --password root--table ershoufang -m 1--target-di...

2020-04-07 10:05:15 353 1

原创 实时:maxwell采集某些表binlog发送至kafka由sparkstreaming消费计算简单的实时数据

编码前的思考maxwell监控所有库所有表的binlog,其实是没有什么用的。而且一个比较简单的指标,总归是容易实现的,对数据的sql时序性也来思考一下。前面文章说过,先update和先delete是不一样的,还有,对于是否会丢数据也要思考。首先我们要nohup一下maxwell了,而且,我们要监控如果数据库不在同一个节点,能不能拿到mysql的binl...

2020-03-29 22:45:19 1089 2

原创 spark开发mysql伪实时数据接入与写入

一、写在前头。早先考虑到并且调研的架构师flume或者canel等读取mysql的binlog,但是需要mysql开启row模式存binlog,但是目前mysql库是已经积攒了很多业务数据,举个例子就是批量修改一万条,仅记录一条update语句,如果改成行,对服务器的磁盘空间要求很大。但是不开启行,就会造成,解析binlog的insert还好,我可以解析后放入kafka中,但是如果涉及到u...

2020-03-29 22:44:15 485 1

原创 python构建集成测试框架与部署

1.解压项目目录到服务器unzip filename -d ./2.执行脚本可能会报错Traceback (most recent call last): File "dataQA_Ralph_dependency.py", line 3, in <module> from BeautifulReport import BeautifulReportI...

2020-03-29 22:43:40 820 1

原创 搭建PHP的web项目

公司web前端使用的php,所以呢,我们要搭建php开发,现在我的机器也是什么也没有,从0搭建。后来同事赶紧把我勒住,让我搭建这么个东西,xammp百度搜一下就可以了。等待即可:这个直接已经集成了tomcat、apache、mysql等,这里我们要稍等会儿,不可急躁。选择语言:让我们集成东西:走到这里,环境就配好了

2020-03-29 22:42:55 1185 1

原创 spark任务调优

一。首先我们来看一下本来的任务时间。二。调优azkaban的job并行任务数优化了12s,如何优化可以参看上一篇文章,本篇着重说一下spark的任务数# default 10 but we need fasterflow.num.job.threads=20三。增加spark内存发现之前机器应该是内存分配不够,分配的内存全部占满了。赶紧增加内存,...

2020-03-29 22:42:00 444 2

原创 【温故而知新】hadoop常见面试题

1.hdfs写数据流程1.客户端向namenode请求上传文件,namenode检测该文件是否已存在,父目录是否存在,然后返回是否可以上传。2.客户端请求上传第一个block,namenode返回三个节点(dn1,dn2,dn3)。3.客户端向dn1请求上传数据,dn1收到请求后会调用dn2,dn2调用dn3,建立传输通道,dn1、dn2、dn3逐级应答。4.客户端开始往dn1上传第一个...

2020-03-29 22:40:39 273

翻译 【温故而知新】Java基础String面试题整理

1.String s1 = 'a'String s2 = 'a's1和s2 相等吗。java会让s2 指向 s1的地址,所以是相等的。2.String s = new String("abc");创建了几个对象?答案及解释:2个对象。s首先会在常量池创建“abc”字符串常量,当new的时候就会在堆内存中创建一个对象,此时会把常量池中的字符串常量拷贝一份副本到给...

2020-03-29 22:33:56 199

原创 【温故而知新】准备Java面试题基础

1. 简单说说java中的集合类2. HashTable和HashMap的区别3. HashTable和HashMap取哈希的方式有什么不同4. HashMap的底层?5.HashMap在jdk1.7和1.8的区别是什么6.为什么HashMap负载因子知道吗,说说7.负载因子为什么是0.75,大了或者小了会怎么样8.Hashmap的初始容量设置是多少,如果要自定义,有什么要求?8....

2020-03-29 22:20:52 255

原创 【温故而知新】自我整理:mysql的索引从二叉树、平衡二叉树、btree、b+tree

1.二叉树但是这样找的很深才能找到都能查到,但是深度较深,速度慢。2.平衡二叉树进行旋转来缩短寻找深度对数据进行数据段划分,提高速度。3.红黑二叉树在平衡基础上,用自己的规则旋转。4.b树已经是很优化的查找方案了,每个节点都是k和v5.b+树节点不带v,所以,存储量级变大,磁盘读取io较快...

2020-03-27 13:29:24 439

翻译 【温故而知新】sql底层实现原理

1、一条查询SQL执行流程图2、查询SQL执行流程之发送SQL请求(1)客户端按照Mysql通信协议将SQL发送到服务端,SQL到达服务端后,服务端会单起一个线程执行SQL。(2)执行时Mysql首先判断SQL的前6个字符是否为select。并且语句中是否带有SQL_NO_CACHE关键字,如果没有则进入查询缓存。3、查询SQL执行流程之查询缓存查询缓存说白了就是一个哈希表...

2020-03-27 13:19:22 893

原创 【温故而知新】Java性能优化GC调优概念

这一块是java需要理解的。温故知新。JVM GC(垃圾回收机制)在学习Java GC 之前,我们需要记住一个单词:stop-the-world 。它会在任何一种GC算法中发生。stop-the-world 意味着JVM因为需要执行GC而停止了应用程序的执行。当stop-the-world 发生时,除GC所需的线程外,所有的线程都进入等待状态,直到GC任务完成。GC优化很多时候就是减少st...

2020-03-26 15:00:20 307

原创 【温故而知新】Java23种设计模式

设计模式主要分三个类型:创建型、结构型和行为型。其中创建型有: 一、Singleton,单例模式:保证一个类只有一个实例,并提供一个访问它的全局访问点 ; 应用场景:一个无状态的类使用单例模式节省内存资源。 二、Abstract Factory,抽象工厂:提供一个创建一系列相关或相互依赖对象的接口,而无须指定它们的具体类。 应用场景:一系列相互依赖的对...

2020-03-26 14:43:44 211

原创 【温故而知新】Kafka实现高吞吐的原理

顺序读写kafka的消息是不断追加到文件中的,这个特性使kafka可以充分利用磁盘的顺序读写性能顺序读写不需要硬盘磁头的寻道时间,只需很少的扇区旋转时间,所以速度远快于随机读写生产者负责写入数据,Kafka会将消息持久化到磁盘,保证不会丢失数据,Kafka采用了俩个技术提高写入的速度。1.顺序写入:在大学的计算机组成(划重点)里我们学过,硬盘是机械结构,需要指针寻址找到存储数据的位...

2020-03-26 14:36:59 476

原创 【温故而知新】Java集合面试题-基本上必问的

1)常见的集合有哪些?答:Map接口和Collection接口是所有集合框架的父接口:Collection接口的子接口包括:Set接口和List接口 Map接口的实现类主要有:HashMap、TreeMap、Hashtable、ConcurrentHashMap以及Properties等 Set接口的实现类主要有:HashSet、TreeSet、LinkedHashSet等 List...

2020-03-26 12:30:24 486

翻译 【温故而知新】线程与进程的深入理解

CPU+RAM+各种资源(比如显卡,光驱,键盘,GPS,等等外设)构成我们的电脑,但是电脑的运行,实际就是CPU和相关寄存器以及RAM之间的事情。CPU的速度相当非常快,寄存器仅仅能追上他的脚步,RAM和别的挂在个总线上的设备完全是望其项背。那当多个任务要执行的时候怎么办呢?轮着来?或者优先级高谁来?不管怎么样的策略,一句话就是在CPU看来就是轮着来的。执行...

2020-03-26 11:10:21 176

原创 【温故而知新】hdfs file、RDD、Pratition、task、core、executor关系整理

一.spark中Partition,Task,core,Executor的个数决定因素和关系:1.RDD 中有多个 Partition,Partition 是 Spark RDD 计算的最小单元,决定了计算的并发度。分区数如果远小于集群可用的 CPU 数,不利于发挥 Spark 的性能,还容易导致数据倾斜等问题。分区数如果远大于集群可用的 CPU 数,会导致资源分配的时间过长,从而影响性能。...

2020-03-26 11:01:24 300

原创 来解决一个很棘手的问题,sparkstream我用的spark版本较新,df落地到mysql最近爆出了问题 com.mysql.jdbc.Driver does not allow create

来看下官网的demo,这里没有任何问题,因为.format("jdbc")是隐式,我们无需关注driver的适用性,但是,程序后台任然会报错,当我们写明用数据库类型之后,也会出现说,无法create table as select,这个mysql是不允许的。但是,以前我们的spark项目是可以的,就因为我使用了,新版本的spark吗?我知道csdn的活跃度很低,问了也是白问,stacko...

2020-01-20 17:16:50 795 3

notepad 集成 jsonviewer

放到什么地方知道吧?notepad的plugins,然后重启notepad,在插件下面,直接,format json即可

2017-12-18

php-5.4.7.tar.gz

适合于linux的操作系统下部署php的环境 版本是5.4.7 已经成功安装过

2017-07-21

pcre-8.37.tar.gz

安装nginx的必备,先将其上传至/usr/local目录下,然后tar -xvfh 一下,在./configure,make,make install即可

2017-07-21

commons-codec

commons-codec都在里面,bin文件

2016-12-29

女友喜欢的小程序

女友绝对喜欢,我女友就很喜欢哦

2016-07-28

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除