jiandequn-CSDN博客

原创 arthas 安装部署

什么是Arthas(阿尔萨斯)?Arthas是Alibaba开源的Java诊断工具。支持Linux/Mac/Windows，采用命令行交互模式，同时提供丰富的Tab自动补全功能，进一步方便进行问题的定位和诊断。Arthas的用途？当你遇到以下类似问题而束手无策时，Arthas可以帮助你解决：这个类从哪个 jar 包加载的？为什么会报各种类相关的 Exception？我改的代码为什么没有执行到？难道是我没 commit？分支搞错了？遇到问题无法在线上 debu..

2021-03-08 12:07:45 1258

原创 sqoop1.4.7之删除时事务异常

当mysql的binlog_format=STATEMENT 是，sqoop执行以下删除语句异常：sqoop eval \--connect 'jdbc:mysql://*:3306/yn_hadoop?useUnicode=true&characterEncoding=utf-8' \--username ynhadoop \--password * \--query "delete from video_user_count_rank_day where t_date>='

2020-08-14 16:50:53 669

原创 Linux定时器crontab对环境变量的不支持

最近配置crontab定时器执行shell脚本，发现对环境变量的不支持执行命令 crontab -e ，配置每分钟执行一次*/1 * * * *echo "$PATH">/home/app/test.info执行结果：/usr/bin:/bin没有引入配置的环境变量参数，crontab没有引入用户环境变量为了引入环境变量，介绍两种方式：一、直接在shell脚本中环境变量：PATH=/bin:/sbin:/usr/bin:/usr/sbin:/usr/local/.

2020-08-12 15:47:01 440

原创 sqoop2（sqoop-1.99.7）的安装部署

Sqoop 是一个开源工具，主要用于在Hadoop和传统的数据库(Mysql, Oracle,等）进行数据传递，可以将一个关系型数据库中的数据导入Hadoop 的HDFS中，也可以将HDFS中的数据导出到关系型数据库中。之前总结了sqoop1的部署安装，接下开对于hadoop-2.6.版本以上 sqoop1不支持，必须使用sqoop2,接下来总结一下sqoop2的部署和填坑一、下载sqoop包...

2020-04-13 12:04:57 859

原创 sqoop1.4.7部署及其使用之旅

为什么使用sqoop? 1、对于hadoop数据的处理有时候要用户关系型数据库（mysql，oracle）中的数据进行清洗，或处理的数据需要导入到关系型数据库中； 2、由于没有工具的支持hadoop的hdfs和数据库之间的交互，手工写map-reduce中来处理复杂繁琐，维护成功高。 3、sqoop是连接关系型数据库和hadoop的桥梁，主要有两个方面(导入和导出)；开始部署...

2020-03-31 17:27:34 989

原创 Pig之自定义UDF的开发和使用

本文对的hadoop中日志，用pig进行处理，抽取样例日志格式如下：2019-11-11 12:24:10.472 INFO [resin-port-9001-48][ContentOperationController.java:367] - Collection events:eventsType=operationPage;mac=08674E4296AF;sn=12033500205...

2020-03-02 10:57:11 375

原创 hive之AbstractSerDe自定义表的解析

对于日志文件中非结构性行的格式化处理成表结构数据；如下；需解析key,value 2019-10-03 00:53:03.624 INFO [resin-port-9001-42][ContentOperationController.java:367] - Collection events:eventsType=operationPage;mac=88CC4525E50C;sn=12082...

2020-02-28 14:51:23 789

原创 hive处理自定义数据结构日志

1、分析日志结构，想得到“Collection events:”后各个参数的值2019-08-26 08:42:39.472 INFO [resin-port-9001-42][ContentOperationController.java:90] - Collection events:eventsType=operationPage;mac=A089E41D06A0;sn=1204214...

2020-02-25 17:26:44 275

原创 apache-hive-3.1.2安装和部署

hive的安装：1、下载apache-hive-3.1.2-bin.tar.gz hive安装包路径2、解压并配置环境变量 a、解压包并重命名为hive-3.1.2 [root@hadoop-01 local]# tar -zxvf apache-hive-3.1.2-bin.tar.gz [root@ha...

2020-02-25 15:13:13 6615

原创 java 远程操作shell

添加相关远程mvan的jsch依赖包 <dependency> <groupId>com.jcraft</groupId> <artifactId>jsch</artifactId> <version>0.1.55</version> </dependency> jsch...

2019-11-29 16:58:32 423

原创 hadoop定位hdfs文件块异常和修复Cannot obtain block length for LocatedBlock

1、mapreduce任务处理时，产生异常信息，不能获取块的长度信息，错误日志如下： org.apache.hadoop.mapred.TaskAttemptListenerImpl: Diagnostics report from attempt_1574843806023_0008_m_000002_3: Error: java.lang.RuntimeException: org.ap...

2019-11-28 14:34:24 2000

原创 java程序之cpu，内存消耗分析

程序启动运行一段时间后，发现请求连接变慢，增加，导致连接超时1、netstat -lnapt|grep 端口|wc -l 获取请求连接数这里的连接数是修复后的连接数；当时连接数爆到6000多；2、获取进程ID并topps -ef|grep user_center 获取进程IDtop -p pid3、ps -mp pid -o time,THREAD,tid|...

2019-11-01 16:12:33 1443

原创 MongoDB之ObjectId的时间范围查询

Mongodb的ObjectId是如何生成的？ mongodb对于未定义_id的数据，会自动生成ObjectId;它的规则是有16进制时间戳(4个字节，即8个字符)+5字节的随机值+3字节的计数器（以随机值开始）组成；详情可以见官网对于ObjectId的描述及其操作：官网对于ObjectId的描述及其操作本节主要解决问题是如何通过指定时间来对于ObjectId进行过滤数据： ...

2019-08-29 17:47:14 3612

原创 Swagger2之在线文档生成PDF和HTML文件

上章讲的swagger的配置（详细见：https://blog.csdn.net/jiandequn/article/details/94718957）；本章就开始pdf和html文件的生成。废话不多说了，直接开始配置；1、maven的swagger2markup依赖(pom.xml) <dependency> <groupId>io.gi...

2019-07-05 10:45:20 2101

原创 Swagger2 配置在线接口文档

swagger2的使用优点： 1、有时候接口太多，维护力度太多；swagger减少了这些麻烦。 2、直接在线测试接口swagger2的依赖配置步骤：1、添加maven依赖： <dependency> <groupId>io.springfox</groupId> <arti...

2019-07-05 10:27:01 2044

原创 Mysql之group by踩过的坑；

Mysql的group by分组是先排序后分组；对于用户想要先排序后分组获取最新的记录，通过group by发现不可行验证步骤：1、创建一个tt表进行验证CREATE TABLE `tt` ( `id` int(11) NOT NULL AUTO_INCREMENT, `num` int(11) DEFAULT NULL, `name` varchar(255) DEFA...

2019-03-27 12:10:37 1685

原创 MongoDB3.4 分片+副本集的集群部署之旅

概述：MongoDB 是一个基于分布式文件存储的Nosql数据库。由 C++ 语言编写。旨在为 WEB 应用提供可扩展的高性能数据存储解决方案。目前mongodb官网提供了三种集群的搭建方式：1、主从（官网已不推荐）2、副本集 3、分片。本章主要介绍分片+副本集+配置服务+路由节点的部署方式。为何要分片？对于大多数程序而言，在一台服务器上保存完整的数据集完全足够了。但是随...

2019-02-20 12:12:32 451

原创 MongoDB之索引

MONGODB索引：索引的使用通常涉及到查询效率的问题；合理的使用索引能够非常明显的提高查询的速度；如果没有索引，在mongodb中要进行集合内所有文件的扫描查询，这种效率是非常低效的，尤其是在处理大数据集时，查询可能等待非常长的时间；这对程序而已是不可忍受的。mongdb中的索引采用了B树的数据结构进行遍历查询；这种结构在其他数据库中是很常见的；mongodb中索引类型有很多中，像唯一索引，稀疏...

2019-01-30 16:05:20 484

原创 linux下图片压缩命令

对当前文件夹下图片进行压缩find ./ -regex '.*$jpg\|JPG\|png\|PNG\|jpeg$' -size +50k -exec convert -quality 75 {} {} \;对格式260*345图片在50Kb以上的图片，图片质量为75进行压缩find ./ -regex '.*$jpg\|JPG\|png\|PNG\|jpeg$' -siz...

2019-01-23 18:01:28 6293

原创 mongoDB之update和save操作

mongoDB更新文档，通过update和save方法进行文档更新操作；update()方法 ...

2019-01-21 20:10:02 4388

原创 mongoDB之MapReduce的介绍和应用

MapReduce的介绍：是一种编程模型，用于大规模数据集（大于1TB）...

2019-01-21 19:12:47 1624

原创 mongodb之group方法

mongodb的group跟其他sql的group一样，对数据表进行分组计算；它使用JavaScript，在性能上受到一些限制。大多数情况下，$ group在Aggregation Pipeline提供了一种具有较少的限制适用的替代。可以通过指定的键的集合中的文档和执行简单的聚合函数。在2.2版本中，返回的数组可以包含最多20000个元素；即最多20000个独特的分组。缺点：group和dis...

2019-01-17 16:41:32 3677

原创 mongodb之where条件查询

mongodb支持sql的where查询格式例子：db.getCollection('test_user').find({'$where':"function(){ return this.addresss.length>2}"})；上述等价：db.getCollection('test_user').find({'$where':"this.addresss.length&gt...

2019-01-17 15:40:49 11276

原创 git本地上传项目代码

注册一个github账户,路径：https://github.com/join?source=login 申请账户后，创建一个代码仓库; ”start a project” 创建仓库，其中respository name 仓库名称；由于演示，code创建，就code1作为用例以上已建立了用户信息，可以下载github 客户端了，打开“open in desktop”下载安装版本，也可以直接...

2019-01-17 12:14:37 173

原创 Swagger2之springMVC的简单集成

搭建一个springMVC的demo工程 demo工程中pom.xml配置  <dependency> <groupId>io.springfox</groupId> <artifactId>springfox-swagger2</artifactId...

2019-01-16 18:11:50 387

原创 monodb之$cond条件及其if-else使用

报表生成中使用了mongodb的$cond 及其if else语句；mongodb不支持case when语句；可参考mongodb样例链接:https://docs.mongodb.com/manual/reference/operator/aggregation/cond/#example功能：对影片观看时间统计用户数（1、十分钟以内观看记录用户；2、10-30分钟；3、30-80分钟；...

2019-01-10 16:35:11 17809 2

原创 java双端链表

/* * 双端链表与传统的链表非常相似，但是它有一个新增的特性：即对最后一个链结点的引用，就像对第一个链结点的引用一样。对最后一个链结点的引用允许像在表头一样，在表尾直接插入一个链结点。当然，仍然可以在普通的单链表的表尾插入一个链结点，方法是遍历整个链表直到到达表尾，但是这种方法效率很低。对最后一个链结点的引用允许像在表头一样，在表尾直接插入一个链结点。当然，仍然可以在

2012-04-27 11:10:48 321

转载奇偶排序

奇偶归并排序是Batcher在1968年提出。奇偶归并排序的作用主要是将两个有序序列合并成一个有序序列。奇偶排序是冒泡排序的并行化版本，其基本思想是将冒泡排序中的每轮操作分解成奇数位上的比较交换和偶数位上的比较交换两部分，下面演示了奇偶排序的过程原始数据 5 4 2 8 3第一轮操作（奇数位）4 5 2 8

2012-04-22 20:23:54 1141

sunnyJam的专栏