自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

小蚯蚓的博客

大数据hadoop和linux,java等编程和框架设计

  • 博客(692)
  • 资源 (10)
  • 论坛 (8)
  • 问答 (1)
  • 收藏
  • 关注

原创 【解决】idea的查看git提交记录history,但是不显示每次提交对应的细节文件

一、问题描述使用idea的VCS功能进行代码管理非常方便,但是,最近使用时竟然产生了一个很头痛的问题:就是点击git-》Show History后。idea只是显示提交记录细节,而不显示提交批次对应代码,这样,就无法知道每次提交对应的分别时那些文件,如下图二、问题解决也是查找了很多,但是很多无效方法。后来终于发现这个看似复杂的问题,其实,关键就在右侧上方比较粗的一条线。把这个线往下拉就可以看到亲爱的对应代码了!...

2020-11-26 22:29:31 11

转载 (转)gyp ERR! stack Error: EACCES: permission denied, mkdir问题解决方案

【转载原因:因为粗心,下载依赖的时候--unsafe-perm打成--unsaft-perm所以遇到同样错误。】【转载原文:https://blog.csdn.net/qq_31325079/article/details/102565223】gyp ERR! stack Error: EACCES: permission denied, mkdir问题解决方案sudo npm i --unsafe-perm原因还是权限问题就是说 npm 出于安全考虑不支持以 root 用.

2020-11-15 22:23:31 11

原创 SparkSQL(13): 窗口函数和group by执行顺序

一、实现功能当sql中既有groupby又有窗口函数,那么两者的执行顺序是什么样?这个特此研究一下,方便后续有使用的时候会方便。二、实际例子3.1案例数据/opt/datas/score.json,学生名字、课程、分数{"name":"A","lesson":"Math","score":100}{"name":"B","lesson":"Math","score":100}{"name":"C","lesson":"Math","score":99}{"name":"D","lesson"

2020-11-15 14:40:35 55

原创 Spark指定保存到HDFS的具体文件名称

一、实现功能dataframe保存到指定路径,一般都是一个文件夹,具体保存文件是文件夹内部的 part-00000*文件。对于需要指定最终保存文件的场景,本身api无法实现。本文提供保存到指定文件夹内,并且指定最终文件名称的两种方法。二、方法1:直接使用hdfs的api实现修改文件名称1.实现思路首先,DataFrame先减少分区到1个,再转换为RDD,然后写入hdfs,因为DataFrame直接保存的话,会有随机后缀part-00000*,无法确定那个文件。而RDD保存,如果只有一个分区的话,最终

2020-11-14 11:56:30 59

转载 (转)Spark中对Dataframe的union 、unionAll和 unionByName方法说明

【转载原因:Dataframe的union 、unionAll和 unionByName方法区别解释很清楚】【转载原文:https://blog.csdn.net/bowenlaw/article/details/102996825?utm_medium=distribute.pc_aggpage_search_result.none-task-blog-2~all~sobaiduend~default-5-102996825.nonecase&utm_term=spark%E4%B8%ADun

2020-11-12 23:15:09 35

原创 Typora修改字体颜色快捷键设置

一、实现功能Typora是最常用的md编辑器,但是却没有改字体颜色的快捷键,很尴尬。所以,本文多个方法尝试解决这个问题。二、解决方案1.更改本地主题使用文件→偏好设置→外观→打开主题文件夹→打开github.css(你自己使用哪个主题,就打开哪个文件)del{ text-decoration:none; color: red;}然后,快捷键alt+shift+5,即可把文字标红总结:(不推荐)因为这个也只有在本地typora指定的主题才生效,推送到github上,就不生效,而是删除线!

2020-11-12 23:07:47 135

原创 Linux和Win常用分卷压缩和合并压缩方法(主要Linux)

一、实现功能因为文件过大超过5G,从Windows上传到Linux时报错。所以,是需要windows中切割压缩,然后上传到Linux。但是,遇到Linux上合并分卷的解压困扰,所以,经过查询测试实现Linux解压分卷压缩包的功能,并且记录。二、分卷压缩1.windows下各种压缩分卷格式(1)rar分卷格式是*.part1.rar,*.part2.rar 等。(2)360分卷压缩出来的文件的名字是*.zip.001、*.zip002之类的形式。(3)WinZip分卷压缩出来的文件名是*.zip、

2020-11-12 13:46:42 29

原创 HDFS API : rename重命名hdfs文件失败原因

一、问题描述通过spark-shell启动,使用hdfs的重命名api:rename修改文件名称,时而报错。scala> import org.apache.hadoop.conf.Configurationimport org.apache.hadoop.conf.Configurationscala> import org.apache.hadoop.fs.{FileSystem, Path}import org.apache.hadoop.fs.{FileSystem,

2020-11-11 23:06:20 40

原创 Spark-shell操作hdfs对应api

一、实现功能hdfs相关java或者scala的api验证需要idea搭建环境,比较复杂。如果,有spark环境,那么可以通过spark-shell方法实现hdfs相关api验证。二、实现方法1.先通过spark-shell进入shellspark-shell2.然后导入对应包,后续即可通过对应api实现验证(1)修改名字scala> import org.apache.hadoop.conf.Configurationscala> import org.apache.hado

2020-11-11 22:16:00 15

转载 (转)虚拟机与Docker有何不同

【转载原因:虚拟机与Docker的区别讲解的非常清楚,而且图示结构清晰】【转载原文:https://www.cnblogs.com/kex1n/p/6933039.html】http://www.techug.com/post/comparing-virtual-machines-vs-docker-containers.html译者按:各种虚拟机技术开启了云计算时代;而Docker,作为下一代虚拟化技术,正在改变我们开发、测试、部署应用的方式。那虚拟机与Docker究竟有何不同呢?..

2020-11-06 18:06:43 35 1

原创 SecureCRT通过SSH密钥连接Linux服务器

一、实现功能当前连接服务器大多是通过SSH的用户和密码去连接,但是缺点就是不是很安全。更加安全的方式是通过公钥和私钥去连接,这样避免了密码泄露对服务器的威胁。二、环境1.SecureCRT2.Centos7三、使用SecureCRT生成对应密钥(公钥和私钥)1.配置主机和登录用户同时把PublicKey提前。2.使用Securt创建新的密钥(公钥和私钥)选择私钥输出路径,并且创建私钥3.按照向导进行:创建私钥和配对公钥(1)初始(2)选择RSA(3)通行短语,默认不添加

2020-11-05 10:07:03 42

原创 Slick报错:Exception in thread “main“ slick.SlickException: Read NULL value (null) for ResultSet column

一、问题描述使用slick连接mysql数据库,查询数据,结果报错Exception in thread "main" slick.SlickException: Read NULL value (null) for ResultSet column <computed> at slick.jdbc.SpecializedJdbcResultConverter$$anon$1.read(SpecializedJdbcResultConverters.scala:27) at sli

2020-10-23 23:33:11 25

原创 spark on hive/hive on spark/SparkSQL的区别

一、实现功能解释三者相似概念的区别。二、解释1.Spark on Hive(1)是在Spark中配置Hive,运行方式入口是通过Spark。(2)底层通过配置Hive的hive-site.xml,hdfs-site.xml等配置文件来直接操作hive2.Hive on Spark(1)是在Hive中配置Spark引擎,运行方式入口是通过Hive。(2)将底层MR引擎替换为Spark引擎。...

2020-10-20 19:55:12 16

原创 Spark:createTempView创建临时表和cache/persist缓存区别

一、问题Dataframe进行createTempView创建一个别名,但是何时执行,以及和cache/persist区别是什么,都是需要弄清楚,才能进一步优化。二、原理解释1.createTempView运作原理Spark中的算子包含transformation算子和action算子,transformation是根据原有RDD创建一个新的RDD,而action则把RDD操作后的结果返回给driver。Spark对transformation的抽象可以大大提高性能,这是因为在Spark中,

2020-10-20 00:04:23 123

转载 (转)ambari安装的各组件的目录

【转载原因:参考安装目录】利用ambari可以快速的搭建Hadoop集群,安装后各组件的默认安装在/usr/hdp/目录下。[root@hdp-01 2.4.2.0-258]# lsaccumulo hadoop hadoop-mapreduce ranger-hdfs-plugin spark zookeeperetc hadoop-hdfs hadoop-yarn ranger-yarn-plugin usr查找方法:ambari使用

2020-10-16 08:26:34 49

原创 Shell(5):Shell输入输出重定向、函数以及文件包含

一、实现功能介绍Shell的输入输出重定向、函数以及文件包含这几个关键点的总结文档。二、具体内容连接1.Shell输入输出重定向2.Shell函数3.Shell文件包含Source三、总结积跬步,至千里

2020-10-09 23:43:50 24

转载 (转)spark-调度策略之FAIR

【转载原因:清晰明了】1、概述spark有两种调度模式:FIFO、FAIR。FIFO是先进先出,有很强的顺序性,只有前一个处理完成后才会去处理后进来的。FAIR是公平调度,通过配置进行控制优先执行的任务。spark默认使用FIFO模式,如果应用场景里面有很多比较大的查询、也有很多小的查询,此时建议使用FAIR模式可以先执行小的查询在执行耗时比较旧的查询。2、配置默认安装spark后再conf目录下有一个fairscheduler.xml.template文件,把此文件复制一份:#cpf.

2020-10-06 11:12:35 30

转载 (转)winserver2008 服务器添加新用户及设置远程桌面管理

【转载原因:非常简洁,清晰说明了步骤,并且操作成功~】1、点击【开始】-【管理工具】-【计算机管理】-【本地用户和组】2、右击【用户】执行【新用户】命令,如图,输人用户信息,在“新用户”对话框中,输人相应信息。3、单击【创建】按钮完成创建,而后【关闭】按钮,创建完成。4、右击【组】执行Remote Desktop Users5、添加用户名即可。...

2020-09-29 07:35:14 42

转载 (转)Xshell配置ssh免密码登录

【转载原因:作者写的很清楚~】【原文:https://blog.csdn.net/zhaoxichen_10/article/details/85274136】前言:ssh登录有两种方式,一种是最常见的通过用户密码登录,另一种是通过证书登录。两种方式各有好处,密码登录的配置方便使用方便,安全性不是很高(当然了也可以通过禁用root,使用子用户登录在切换的方式提高安全性,在这不做过多讨论);证书登录,配置起来有些麻烦,但使用方便,服务器间特别是传输文件比较方便,由于是一一对应的证书。安全性也比较高

2020-09-19 22:54:33 69

转载 (转)Windows下搭建Spark源码阅读与调试环境

【转载原因:过程详细和并且解决了windows编译的常见问题】【转载原文:https://blog.csdn.net/do_yourself_go_on/article/details/73129408】了解和使用Spark有一段时间了,但是对Spark的一些原理和内部机制了解的不够深入,故打算研读一下Spark源码。今天首先介绍一下Spark源码阅读与调试环境的搭建。开发工具安装首先是一些必要的工具的安装,这里不一一介绍了,请读者自行提前安装好:(以下工具版本可自行选择,但是要符合S.

2020-09-19 13:21:48 19

转载 (转)spark查看DF的partition数目及每个partition中的数据量【集群模式】

println("--------------------"+data.rdd.getNumPartitions) // 获取DF中partition的数目val partitions = data.rdd.glom().collect() // 获取所有data下所有的partition,返回一个partition的集合for(part <- partitions){ println(part.getClass.getName + "::::::::" + part.length) ...

2020-09-18 08:04:01 43

转载 (转)scala异常处理

Scala 异常处理Scala 的异常处理和其它语言比如 Java 类似。Scala 的方法可以通过抛出异常的方法的方式来终止相关代码的运行,不必通过返回值。抛出异常Scala 抛出异常的方法和 Java一样,使用 throw 方法,例如,抛出一个新的参数异常:throw new IllegalArgumentException捕获异常异常捕捉的机制与其他语言中一样,如果有异常发生,catch字句是按次序捕捉的。因此,在catch字句中,越具体的异常越要靠前,越普遍的异常越靠后

2020-09-15 00:12:24 24

原创 SparkSQL(13):spark操作hive中不同数据库的两种方法

一、实现功能sparksql代码中多需要读取hive中不同库的表,本文两种方法实现如何从代码中实现操作不同数据库的实现。二、实现方法1.pom.xml依赖 <!-- Spark Core --> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artifactId> &lt

2020-09-13 18:04:07 23

转载 (转)Spark:Dataset注册临时表tempView

注册:// 创建它的SparkSession对象终止前有效df.createOrReplaceTempView("tempViewName") // spark应用程序终止前有效df.createOrReplaceGlobalTempView("tempViewName") 取消注册:spark.catalog.dropTempView("tempViewName")spark.catalog.dropGlobalTempView("tempViewName")临时表只

2020-09-09 17:55:52 44

原创 Linux通过lftp访问sftp服务器

1.安装yum -y install lftp2.等陆实例lftp sftp://username:password@ip:22关键:username:用户名password:密码ip:sftp服务器ip22:默认的端口号3.lftp常用的命令:ls显示远端文件列表(!ls 显示本地文件列表)。cd切换远端目录(lcd 切换本地目录)。get下载远端文件。mget下载远端文件(可以用通配符也就是 *)。pget使用多个线程来下...

2020-09-09 00:24:18 70

原创 Hive(31):将txt数据导入ORC格式表

一、实现功能将txt或者csv数据加载到orc格式的hive中,因为不能直接创建orc类型数据,而直接将txt(csv)数据load进入orc表,会报错。所以,需要创建一个textfile格式中间表。二、实例1.创建textfile临时表:create table if not exists people_orc_txt( name string, gender string)row format delimited fields terminated by ',' sto

2020-09-05 14:59:53 174

转载 十分钟,让你了解DSP/DMP/SSP

十分钟,让你了解DSP/DMP/SSP首先,你对互联网广告的产业链要至少有一个基本的了解。广告主advertisers,显然是指想为自己的品牌或者产品做广告的人,例如宝马、Intel、蒙牛……媒体publisers,则是提供广告位置的载体,例如电视台、网站、杂志、楼宇……广告商(agency)本质上其实就是中介,帮广告主找媒体广告位,帮媒体找广告主。受众(audience),这个产业链还有一个不能忽略的部分,那就是“消费”广告的人凡是有供给、有需求就一定有市...

2020-08-31 10:22:31 33

转载 (转)Entering emergency mode. Exit the shell to continue.

【转载原因:遇到同样的问题Entering emergency mode. Exit the shell to continue.运行命令后,即可。】CentOS虚拟机断电或强制关机,再开机出现问题:找出问题出现在哪:这里的journalctl是查看系统的日志信息;直接输入此命令查看,日志内容可能很多,快速翻页或者直接定位到最新的日志信息,发现有标红的,说明此处出现错误。错误原因:failed to mount /sysroot.Dependency fa...

2020-08-09 14:42:17 103

转载 (转)使用Sqoop,最终导入到hive中的数据和原数据库中数据不一致解决办法

【转载原文:https://www.cnblogs.com/zdfjf/p/5277597.html】 Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。1.问题背景  使用Sqoop把oracle数据库中的一张表,这里假定为stu...

2020-08-03 08:37:55 99

转载 (转)详解tomcat线程池原理及参数释义

【转载原因:最近服务器上tomcat总是出问题,本地运行又没有问题,所以,提前调整一些参数优化线上环境,尽量避免储出问题。】【转载原文:https://blog.csdn.net/li396864285/article/details/49331369】tomcat线程池有如下参数:maxThreads, 最大线程数,tomcat能创建来处理请求的最大线程数maxSpareTHreads,最大空闲线程数,在最大空闲时间内活跃过,但现在处于空闲,若空闲时间大于最大空闲时 ...

2020-07-19 13:36:27 58

原创 Linux最大文件数调优的bug:合适是最好的

一、调优原因服务器上,当把系统用户的开启文件数目修改为60556后,服务器Tomcat服务对个别的接口请求,只是做出部分响应,即一个流程,10个代码逻辑,只执行到第5个左右,第5个逻辑日志都进不去。关键,业务逻辑也不报错,就是无法执行这个逻辑代码,而且代码也没有变动过。感觉很是坑爹。二、问题原因 因为确认不是逻辑代码导致的,因为在修改开启文件参数之前整体运行时完美的,那么首先就把这个开启文件的个数修改回去默认1024.ulimit -n 1024 然后,一切就恢复平静了。但...

2020-07-19 11:05:29 49

原创 Hive骚操作

1.在hive客户端查看hdfs文件系统hive> dfs -ls /;2.在hive客户端直接查看本地文件系统hive> ! ls /opt;

2020-07-18 17:35:23 41

原创 生产问题:@Scheduled Spring定时任务每次执行两次原因分析以及解决方案

一、问题描述Spring 的@Scheduled定时任务,按照Spring定时任务配置 的配置方法,结果每次定时任务都是执行了两次,很尴尬@Scheduled(cron = "*/20 * * * * ?")public void process(){ logger.info("hello world");}二、问题原因第一,肯定了不是代码的问题,因为在本地运行没有问题,这个问题是在布署到服务器tomcat容器后产生的。第二,参考很多文章发现关键点是,这个定时组件@Compo

2020-07-18 16:05:01 155

原创 服务器Tomcat应用报错: java.io.IOException: Too many open files

一、问题描述​ 服务器的tomcat应用报错,之前运行没有问题16-Jul-2020 10:26:08.719 SEVERE [http-nio-9087-Acceptor-0] org.apache.tomcat.util.net.NioEndpoint$Acceptor.run Socket accept failed java.io.IOException: Too many open files at sun.nio.ch.ServerSocketChannelImpl.accept0(Na

2020-07-16 10:45:43 121

转载 (转)hive中json字符串解析之get_json_object与json_tuple

【转载原因:get_json_object与json_tuple的用法,作者讲解非常清楚】【转载原文:https://blog.csdn.net/weixin_37536446/article/details/80622220】在技术对app进行埋点时,会讲多个字段存放在一个数组中,因此模型调用数据时,要对埋点数据进行解析,以作进一步的清洗。本文将介绍解析json字符串的两个函数:get_json_object和json_tuple。表结构如下:一、get_json_obj...

2020-07-06 00:05:33 165

转载 (转)This function has none of DETERMINISTIC, NO SQL, or READS SQL DATA in its de 错误解决办法

【转载原因:mysql创建函数,报错,参考可以解决】【转载原文:https://www.cnblogs.com/kiko2014551511/p/11527423.html】1. 创建函数时报错信息执行创建函数的sql语句时,提示:This function has none of DETERMINISTIC, NO SQL, or READS SQL DATA in its declaration and binary logging is enabled2. 错误分析我们创建函.

2020-07-05 14:20:08 59

转载 (转)图解SSH原理

[转载原因:作者写的非常详细!收益匪浅][转载原文:https://www.jianshu.com/p/33461b619d53]主要内容1. 初见SSHSSH是一种协议标准,其目的是实现安全远程登录以及其它安全网络服务。SSH仅仅是一协议标准,其具体的实现有很多,既有开源实现的OpenSSH,也有商业实现方案。使用范围最广泛的当然是开源实现OpenSSH。2. SSH工作原理在讨论SSH的原理和使用前,我们需要分析一个问题:为什么需要SSH?从1.1节SSH的.

2020-06-29 15:32:44 41

原创 IDEA远程调试Tomcat中启动的SpringWeb项目

一、实现功能IDEA远程调试Tomcat启动的war包应用,否则,一直调试只是使用日志打印关键信息,关键发现关键信息没有打印的时候,需要重新打包布署,非常麻烦。而实现远程调试,则可以快速获得需要的信息,而没必要重新打包,大大提高了程序调试的效率。二、必备条件1.环境服务器:centos7远程容器: tomcat8.5应用包:war包2.切记:远程环境包,一定要和本地编译前的代码是一致的!三、配置步骤1.修改bin/catalina.sh文件,在最开始添加如下代码:JP.

2020-06-27 20:10:25 135

原创 TCP/IP三次握手和四次挥手解释

一、TCP报文结构1.端口号TCP报头中的源端口号和目的端口号同IP数据报中的源IP与目的IP唯一确定一条TCP连接2.序号(4字节=32位)用来标识TCP发端向TCP收端发送的数据字节流3.确认序号(4字节=32位) 由于该报文为SYN报文,ACK标志为0,故没有确认序号(ACK标志为1时确认序号才有效)TCP协议规定,只有ACK=1时有效,也规定连接建立后所有发送的报文的ACK必须为1。一旦连接建立,该值将始终发送(同ACK标志)4.第四行(1)头部长度:该字段...

2020-06-26 14:59:14 64

原创 HTTP超时含义:connectionRequestTimeout 、connectionTimeout、socketTimeout代表意义

一.实现功能解释三者的connectionRequestTimeout 、connectionTimeout、socketTimeout代表意义,进而了解三者的区别.二.具体区别1.connectionRequestTimout:指从连接池获取连接的timeout从连接池获取连接的超时时间,如果连接池里连接都被用了,且超过设定时间,就会报错connectionrequesttimeout,会抛出超时异常.2.connetionTimeout:指客户端和服务器建立连接的timeout.

2020-06-20 11:16:13 415

Postgresql存储过程.docx

数据库存储过程:包括控制if,循环while/for/loop的实现

2019-07-29

前后端分离-资料.rar

docker部署前后端分离项目的配置文件,基本包含了所有配置需要的文本。可以解决,从网页中拷贝配置文件命令,带有特殊字符的问题,方便快速部署。

2019-07-26

IKAnalyzer2012FF_u1中文分词器

IK中分分词器,在全文检索中非常有用,尤其对于中文文档的全文检索。本压缩包打包文件可以满足使用solr建立全文检索的配置需求。

2019-04-27

hadoop的wordcount简单实例

这是一个wordcount的一个简单实例jar包,仅仅用来做测试。 map类:org.apache.hadoop.wordcount.WordCountMapReduce$WordCountMapper reduce类 org.apache.hadoop.wordcount.WordCountMapReduce$WordCountReducer

2018-12-06

Pyhon数据结构

很经典的python数据结构算法书籍,入门必备!建议人手一本~

2016-10-23

virtual PC 虚拟机独立更新安装包

XP,PC虚拟机安装包pc机独立更新安装包

2015-05-21

串口调试软件

串口调试软件,很方便灵巧的一个实用调试软件!

2015-05-21

HDTune 5.0.rar

小巧而灵活的监测硬盘健康状况的工具,可以看移动硬盘的加电累计时间和硬盘加电次数。

2015-05-21

火狐电子书阅览器EPUBReader

epubReader是一个强大的电子图书阅读器,不但支持本地电子书,包括ePub、umd、TXT和Html/xHtml格式,而且支持在线下载epub格式电子书。如果在本地浏览ePub格式书籍可以使用epubBuilder创建,在测试中ePub格式压缩率高,并且制作速度非常快。

2015-05-21

文件管理器EF_Commander_10.45_64.exe

文件太乱,时常找不到所需要的文件?这就是一款很好的软件,解决问题!

2015-05-21

RayBreslin的留言板

发表于 2020-01-02 最后回复 2020-01-02

C# TCP 套接字 不允许对非连接的套接字执行此操作

发表于 2016-01-16 最后回复 2016-01-16

报表参数的建立

发表于 2015-05-03 最后回复 2016-01-16

c# onmouseenter实现代码

发表于 2015-04-21 最后回复 2015-05-03

c#查询语句,查询多列?

发表于 2015-01-26 最后回复 2015-01-26

c#数据库插入操作

发表于 2015-01-23 最后回复 2015-01-23

c#数据库查询,并显示

发表于 2015-01-22 最后回复 2015-01-22

数据库操作:怎样把插字段从建表中单独分离为一个函数?

发表于 2015-01-22 最后回复 2015-01-22

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除