nuc2015-CSDN博客

原创 Liunx yum安装MySQL5.7

yum安装MySQL5.71、配置YUM源在MySQL官网中下载YUM源rpm安装包：http://dev.mysql.com/downloads/repo/yum/下载mysql源安装包[root@VM-0-17-centos ~]# wget http://dev.mysql.com/get/mysql57-community-release-el7-8.noarch.rpm--2021-08-21 11:17:48-- http://dev.mysql.com/get/mysql57-co

2021-08-21 12:06:01 294

原创 Got permission denied while trying to connect to the Docker daemon socket at unix:///var/run/docker.

Got permission denied while trying to connect to the Docker daemon socket at unix:///var/run/docker.

2020-09-03 00:06:53 359

原创 HttpClient上传文件中文乱码（MultipartFile fileName中文乱码乱码）

需要设置http为兼容模式，否则会使用mime默认的编码（US-ASCII）设置方式：MultipartEntityBuilder builder = MultipartEntityBuilder.create();builder.setCharset(Charset.forName("UTF-8"));builder.setMode(HttpMultipartMode.BROWSER_COMPATIBLE);//设置浏览器兼容模式，否则后台接口接收到的文件名中文乱码?????.xlsx.

2020-08-26 16:10:11 1837

原创 Httpclient上传文件流InputStream，使用浏览器兼容模式

private Object uploadRequest(HttpServletRequest servletRequest, String httpUrl, String para, InputStream inputStream, String fileName) { CloseableHttpClient httpClient = null; CloseableHttpResponse httpResponse = null; try { HttpClientBuilder htt.

2020-08-26 16:05:48 1019

原创 Dockerfile制作Tomcat镜像

首先制作JDK镜像Dockerfile#基础镜像FROM centos7.4#镜像制作者信息和公司部门产品等相关信息，使用英文简称LABEL maintainer="xxx@mail.com" \#安装jdkADD jdk1.8.0_171.tar.gz /usr/local/#设置java环境变量ENV JAVA_HOME=/apps/jdk1.8.0_171ENV JAVA_BIN=$JAVA_HOME/binENV PATH=$PATH:$JAVA_BINENV.

2020-08-24 19:34:55 218

原创 maven多环境配置文件

1、首先在项目中添加多环境配置文件，并设置将目录设置为资源文件夹：2、首先在pom文件中添加一下配置：<profiles> <profile>  <id>sd</id> <properties> ...

2019-12-25 11:21:21 418

原创时隔一年后的面经总结之线程池

面试厂家360，技术面三面。问题：你用过哪些线程池？请介绍一下。我最常用的线程池是new ThreadPoolExecutor(int corePoolSize, int maximumPoolSize, long keepAliveTime, TimeUnit unit, BlockingQueue<Runnable> workQueue) ，以下就是我最常用的线程池代码，我...

2019-12-19 21:58:22 551

原创时隔一年后的面经总结

这是一条时隔一年后的面试凉经。当时的目标厂家是字节跳动，目标岗位大数据工程师。在此记录我印象最深刻的一个问题。由于在大三期间有过实习经历，写过爬虫，并且将这一点写在了我的求职简历中。所以面试官就我在爬虫系统中是如何处理URL的重复问题的。URL去重问题：爬虫在抓取网页时会抓取到数亿条的URL，而这在互联网种属九牛一毛。并且网页中的URL是相互链接的，如果抓取到相同的URL，会行程闭环，...

2019-12-18 21:59:21 326 2

原创关于定时任务一个批次起止时间的算法设计与实现

适用场景：业务中不乏会添加各种各样的定时任务。添加了一个定时任务后，该定时任务可能是每天执行、每周执行或者是每月执行。无论是每天、每周、每月，本质都是在某一刻去操作某一个时间段的数据。那么现在想查看该任务在本批次想要操作的数据，就得计算出本批次的时间段。注：本批次时间段（起始时间：任务上一次触发的时刻；结束时间：任务下一次执行的时间。）任务包含的时间参数clearCycle：执行周...

2019-12-17 23:03:42 1021

原创 SpringBoot前后端分离跨域导致的Sessionid不一致问题解决办法

背景：最近项目进行重构，微服务架构，项目分成多个模块，在用户同步的时候发生了跨域操作。将门户模块的用户信息加密后，通过ajax请求发送给其他模块，例如meta模块，meta模块拿到加密的用户信息后进行解析，然后将用户信息保存到session中。然后发现每次请求，meta模块的sessionid都不同，导致保存在session中的用户信息无效，每次都得重新解析，某些请求是不带用户请求的，所以程序就出...

2019-12-16 23:11:52 4481

原创 Ajax跨域请求，针对SpringBoot

转：https://segmentfault.com/a/1190000012469713?utm_source=tag-newest使用springboot进行前后端分离的时候出现跨域请求。在HTML页面发起ajax请求的时候出现了下列错误。说明这不是一个简单的请求，分别尝试在前端和后端解决。1、发起ajax的时候，将dataType由"json"改为"jsonp"$....

2019-10-30 20:30:03 167

原创 Redis常用命令

1、查看Redis中所有的key。127.0.0.1:6379> keys *1) "person"2、清除所有的key。127.0.0.1:6379> flushallOK127.0.0.1:6379> keys *(empty list or set)3、设置一个key值127.0.0.1:6379> set str testOK4、查看一个key的值127.0.0.1:6379> get str"test"

2019-07-29 10:30:59 276

原创 Docker入门笔记

Dockerfile实战：构建Tomcat镜像步骤：1.新建docker_demo文件夹，并进入。2.将Tomcat和jdk安装包复制到该目录中。3.在该目录下新建Dockerfile文件，文件名首字母D必须为大写。4.根据上述基本结构来编辑Dockerfile文件。5.使用docker build命令来构建镜像。6.使用docker run命令来启动容器。

2019-07-23 21:37:07 389

原创 sqoop将mysql数据导入hdfs和hive学习笔记

#安装好以后将mysql驱动mysql-connector-java-5.1.21-bin.jar放到sqoop安装目录的lib下面一、将mysql数据导入hdfs，命令如下：[root@master bin]# /apps/sqoop-1.4.7/bin/sqoop import \--connect jdbc:mysql://localhost:3306/sqoop \--u...

2019-03-07 10:54:42 1022

原创如何运行一个uve.js项目

目录第一步首先安装node.js第二步安装vue-cli脚手架构建工具第三步运行项目第一步首先安装node.js在官网下载node.js（.msi）安装包版本安装的时候可一路next即可完成安装。在安装的时候可能会出现2503错误，这是因为安装权限的问题。所以你可以使用管理员权限来运行安装包首先用管理员来运行cmd 然后运行安装包msiexec /pac...

2019-03-04 11:17:07 2333

原创 maven构建SSM项目pom.xml文件依赖

<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/maven-v4_0_...

2019-01-16 14:38:09 965

原创 Exception in thread "main" java.lang.IllegalArgumentException: java.net.URISyntaxException: Relative

Exception in thread "main" java.lang.IllegalArgumentException: java.net.URISyntaxException: Relative path in absolute URI: D:%5CHadoop%5Chdfs%5Cwordcount%5Cinput%5Ca.txt

2018-09-18 10:12:38 2909 2

原创 spark-submit提交jar包到spark集群上

一、首先将写好的程序打包成jar包。在IDEA下使用maven导出jar包，如下：在pom.xml中添加以下插件 <plugin> <groupId>org.apache.maven.plugins</groupId> <artifactId>maven-...

2018-09-18 10:08:42 19359 2

原创 JdbcRDD在多个分区情况下是如何读取数据的

package nuc.sw.testimport java.sql.{Connection, DriverManager}import org.apache.spark.rdd.JdbcRDDimport org.apache.spark.{SparkConf, SparkContext}import scala.collection.mutable/** * creat...

2018-09-17 15:25:43 632

原创什么是shuffle，如何区分操作是否还有shuffle

将一份数据分开发送到好几个地方的操作还有shuffle

2018-09-16 12:10:17 3391 3

原创深入理解java虚拟机（第一篇）

在eclipse中查看内存溢出的案例：package main;import java.util.ArrayList;import java.util.List;/** * @author 刘卫卫 * 2018年9月12日下午3:22:49 */public class HeapOOM { public static void main(String[] args) {...

2018-09-12 16:25:07 192

原创深入理解RDD

什么是RDD？RDD 是一个分布式的可变集合常用的Transformation（即转换，延迟加载）通过并行化scala集合创建RDD数据既可以放到内存当中，又可以放在磁盘当中五个特点：1、一系列分区组成2、每一个分区上都会有一个函数作用在上面3、RDD和RDD之间存在依赖关系4、如果RDD里面装的是Key-value类型，有分区器5、如果是从hdfs这种文件系统中创建RDD，会...

2018-09-11 22:03:58 387

转载 java集合框架源码解析

给jdk写注释系列之jdk1.6容器(1)-ArrayList源码解析给jdk写注释系列之jdk1.6容器(2)-LinkedList源码解析给jdk写注释系列之jdk1.6容器(3)-Iterator设计模式给jdk写注释系列之jdk1.6容器(4)-HashMap源码解析给jdk写注释系列之jdk1.6容器(5)-LinkedHashMap源码解析给jdk写注释系列之jdk...

2018-09-08 11:03:10 289

原创 Hbase高可用集群搭建

下载Hbase安装包，并解压1、修改hbase-1.2.6/conf/hbase-env.sh 配置文件export JAVA_HOME=/apps/jdk1.8.0_171export HADOOP_HOME=/apps/hadoop-2.8.0 #配置hadoop变量，否则hbase不识别hdfs集群名export HBASE_HOME=/apps/hbase-1.2.6ex...

2018-09-04 10:31:29 556

原创 RDD算子2

http://homepage.cs.latrobe.edu.au/zhe/ZhenHeSparkRDDAPIExamples.htmlhttp://homepage.cs.latrobe.edu.au/zhe/ZhenHeSparkRDDAPIExamples.html//让我们先用分区标签打印出RDD的内容scala> val z = sc.parallelize(List(...

2018-09-03 21:44:14 230

原创 RDD算子1

RDD 是一个分布式的可变集合#常用的Transformation（即转换，延迟加载）#通过并行化scala集合创建RDDscala> val rdd1 = sc.parallelize(Array(1,2,3,4,5,6,7,8,9,10))rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[0] at par...

2018-09-03 21:43:01 182

原创 spark中的reduceByKey VS groupByKey

在编写spark程序时，reduceByKey和groupByKey都可以实现分组聚合的功能，但是在实际中使用哪一个更好呢。还记的在写MapReduce程序的时候，每一台机器上的数据会经过shuffle，分发到属于自己的机器上进行汇总计算。这个过程是通过网络进行IO操作的，是很费资源的。所以在MapReduce中可以在map端先进行combiner，也就相当于执行了一次reduce，然后再进行...

2018-08-31 20:22:43 472

原创 RDD常用的transformation及分区详解

RDD常用的transformation及分区详解常用的transformation（转换，延迟加载）创建RDD有两种方法：1.通过driver端，也就是spark-shell端通过集合来创建。2.可以通过集群上的数据来创建。

2018-08-30 21:52:48 455

原创什么是RDD

什么是RDD，RDD的transformation和action到底是什么

2018-08-30 20:56:01 4388

原创 Spark+HDFS实现wordCount

首先启动环境：1、启动hdfs[root@master conf]# start-dfs.sh2、然后启动spark[root@master spark-2.2.0]# sbin/start-all.sh --master spark://master.hadoop:7077[root@master spark-2.2.0]# bin/spark-shell --mast...

2018-08-30 15:04:27 883

原创 HIVE使用本地模式执行操作

将hive的Job交给yarn执行太慢，hive支持本地模式set hive.exec.mode.local.auto=true;默认为false测试例子：试验：先创建一张表，指定文件格式为sequencefilecreate table t_seq(id int, name string, addr string)stored as sequencefile;然后往表中插入数...

2018-08-29 09:46:27 6945

原创 Spark提交任务的命令

bin/spark-submit --master spark://master.hadoop:7077,slave1.hadoop:7077 --executor-memory 512mb --total-executor-cores 4--class nuc.sw.test.ScalaWordCount /root/spark-1.0.jar hdfs://master.hadoop:90...

2018-08-28 19:47:29 4372

原创 WARN scheduler.TaskSchedulerImpl: Initial job has not accepted any resources

提交Spark任务时，报错：WARN TaskSchedulerImpl: Initial job has not accepted any resources; check your cluster UI to ensure that workers are registered and have sufficient resources

2018-08-28 19:27:58 2472

原创 spark资源调度与yarn类比

spark资源调度与yarn类比：master负责资源调度：就是决定在那些worker上启动executor,监控worker) ————> yarn上的是resourcemanagerworker负责启动执行任务的进程（executor），并且监控executor，并且将当前机器的信息通过心跳汇报给master————>nodemanagerexecutor负责执...

2018-08-27 19:05:48 738

原创 Spark集群中的Master和Worker之间的通信原理

worker是如何知道master在哪台机器上的？在配置文件中也没有配。配置文件如下：export JAVA_HOME=/apps/jdk1.8.0_171 export SCALA_HOME=/apps/scala-2.11.7 #export HADOOP_HOME=/apps/hadoop-2.8.0/ #export HADOOP_CONF_DIR=/apps/h...

2018-08-23 19:19:24 4050

原创 Spark+zookeeper搭建高可用集群学习笔记

Master结点存在单点故障，所以要借助zookeeper，至少启动两台Master结点来实现高可用，配置方案比较简单先停止所有Spark服务，然后安装zookeeper，并启动zookeeper集群规划：主机名 IP地址启动程序 master.hadoop 192.168.1.2 zookeeper、master、worker slave1.hado...

2018-08-21 21:09:18 5812 1

原创 Spark2.2.0集群搭建学习笔记

一、Spark简介：Saprk可以运行在hadoop的yarn或Mesos,standalone,clude(资源管理框架)上，使用的文件系统可以是HDFS，也可以使Cassandra,HBase等。二、环境搭建：如果想学习spark最好的方法是看官方文档。spark仅仅是一个通用的负责计算的框架,有很多内置的算子。而在mapreduce中需要在map中提供排序规则他可以生成一个...

2018-08-21 19:31:37 838

原创 zookeeper集群启动脚本

zookeeper集群启动脚本

2018-07-14 17:54:38 800

原创 HA高可用集群namenode启动后自动停止解决办法

WARN org.apache.hadoop.ipc.Client: Failed to connect to server: master.hadoop/192.168.1.2:8485: retries get failed due to exceeded maximum allowed retries number: 10

2018-07-14 17:51:05 8483 1

原创 hive DDL 笔记

为了查看表结构和数据方便使用客户端服务端模式访问hive 开启hive服务端（监听端口为10000）[root@master apps]# hive-1.2.1/bin/hiveserver2开启服务端口后光标一直闪烁，表示开启若想启动到后台nohup bin/hiveserver2 1>/dev/null 2>&1 &客户端连接hive...

2018-07-07 19:02:22 325

空空如也

空空如也