自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 rabbitmq安装

1.rabbitmq是运行环境需要erlang,所以安装rabbitmq之前先需要安装erlang,但是需要注意两者版本需要兼容问题。在centos7下安装的时候遇到了许多的问题。记录一下完整的安装。参考链接:https://www.helloweba.net/server/624.html参考链接:https://www.cnblogs.com/shanfeng1000/p/11951703.html安装 RabbitMQ 之前要安装 Erlang,需要先到RabbitMQ官网看下版...

2020-07-09 11:14:38 40

转载 使用Git设置远程Remote仓库时显示authentication failed for xxx错误

原文链接:https://blog.csdn.net/h927974926/article/details/100031003错显示:Invalid Remote Remote URL test failed: Authentication failed forhttp://x.x.x.x/x/git是由于系统记住了Git的凭据,即记住了username和password,当这两者发生改变时会报错。解决:1、进入“控制面板”——“用户账户”——凭据管理...

2020-06-19 14:26:03 211

转载 ubuntu jenkins使用中/var/lib/jenkins空间不够想从配置文件修改工作目录

原文链接:https://blog.csdn.net/yudelian/article/details/1051435431、配置文件地址:/etc/default/jenkins修改配置文件里的JENKINS_HOME为自己想要的目录JENKINS_HOME=/home/$NAME2、计划把jenkins工作目录改为/home/jenkinssudo mkdir /home/jenkins因为/var/lib/jenkins的所属账户为jenkins,故修改/home/jenki.

2020-06-16 10:49:05 145

转载 Ubuntu上Jenkins搭建过程

原文链接:https://www.cnblogs.com/big-ming/p/12523117.html参考链接:https://blog.csdn.net/luoww1/article/details/100095889一、Jenkins介绍#Jenkins是一款开源自动化服务器,旨在自动化连续集成和交付软件所涉及的重复技术任务。 Jenkins是基于Java的,可以从Ubuntu软件包安装,也可以通过下载和运行其Web应用程序ARchive(WAR)文件进行安装 - 构成一个完整的Web应

2020-06-15 14:28:50 85

原创 ubuntu安装nginx

原文链接:https://blog.csdn.net/qq_23832313/article/details/83578836目录ubuntu安装nginx一、apt-get安装nginx二、下载nginx包安装在操作过程中有任何疑问,请留言,或者加群:高级java学习交流群(821605718)。ubuntu安装nginx目前支持两种安装方式,一种是apt-get的方式,另一种是根据包安装的方式为方便我统一使用root用户一、apt-get安装nginx# 切换至root用户s

2020-06-12 16:07:29 69

原创 Ubuntu16.04下,erlang安装和rabbitmq安装步骤

原文链接:https://www.cnblogs.com/shanfeng1000/p/11951703.html准备工作,先下载erlang和rabbitmq的安装包,注意他们的版本,版本不对可能会导致rabbitmq无法启动,这里我使用的是最新的erlang(22.1)和rabbitmq(3.8.1),下载地址:  erlang下载地址:http://erlang.org/download/otp_src_22.1.tar.gz(点击这里进入下载页面)  rabbitmq下载地址:https

2020-06-12 11:52:57 124

转载 Ubuntu18.04下安装MySQL

原文链接:https://www.cnblogs.com/opsprobe/p/9126864.html提示:以下操作均在root权限下进行。# 查看有没有安装MySQL:dpkg -l | grep mysql# 安装MySQL:apt install mysql-server安装完成之后可以使用如下命令来检查是否安装成功:netstat -tap | grep mysql通过上述命令检查之后,如果看到有 mysql 的socket处于 LISTEN 状态则表示安装成功

2020-06-11 14:50:05 73 1

转载 Ubuntu 16.04 RabbitMq 安装与运行(安装篇)

原文链接:https://blog.csdn.net/qq_22638399/article/details/81704372前言目前公司用阿里云 + redis 的方式实现的消息队列。了解了目前几种主流的消息组件(主要包括rabbitmq、kafka、)的优缺点后,这里为了深入学习rabbitmq,我在自己的腾讯云服务器上也搭建了一套环境。准备工作一台服务器:Ubuntu Server 16.04.1 LTS 64位安装RabbitMq可以参照RabbitMq官网的安装教程(Insta

2020-06-11 14:35:45 76

转载 Ubuntu16.04上安装MySQL(详细过程)

原文链接:https://blog.csdn.net/weixin_42209572/article/details/98983741一、安装MySQL1、使用以下命令即可进行mysql安装,注意安装前先更新一下软件源以获得最新版本:$ sudo apt-get update #更新软件源$ sudo apt-get install mysql-server #安装mysql上述命令会安装以下包:apparmormysql-client-5.7mysql-commonmys...

2020-06-11 14:10:41 72

转载 linux查看端口占用情况

原文地址:https://www.cnblogs.com/wangtao1993/p/6144183.html今天要使用python写一个端口探测的小程序,以检测一些特定的服务端口有没有被占用,突然发现自己居然不知道在linux中如何查询端口被占用的情况,天呐,赶快学习一下。????Linux如何查看端口1、lsof -i:端口号 用于查看某一端口的占用情况,比如查看8000端口使用情况,lsof -i:8000# lsof -i:8000COMMAND PID USER F

2020-06-11 11:55:43 47

转载 @Data注解 与 lombok

@Data 注解的主要作用是提高代码的简洁,使用这个注解可以省去代码中大量的get()、 set()、 toString()等方法;引入lombok要使用 @Data 注解要先引入lombok,lombok 是什么,它是一个工具类库,可以用简单的注解形式来简化代码,提高开发效率。在maven中添加依赖<dependency> <groupId>org.projectlombok</groupId> <artifactId>.

2020-06-10 17:17:06 43

转载 MySQL Community Server 8.0.11下载与安装配置

原文地址:https://www.cnblogs.com/limn/p/9359063.html一、下载1、选择合适的安装包,我在这里下载的是目前最新的安装包,8.0.11,而且我选择下载的是解压版的,安装版的话,安装会比较麻烦。MySQL Community Server下载链接:https://dev.mysql.com/downloads/mysql/点击进入下载页面,滚动到归最下面,选择压缩版的进行下载。2、直接下载完成。二、安装与配置1、直接对下载的文件进行解压

2020-06-10 10:12:08 53

原创 分布式锁zookeeper面试

来源https://github.com/shishan100/Java-Interview-Advanced面试题zookeeper 都有哪些使用场景?面试官心理分析现在聊的 topic 是分布式系统,面试官跟你聊完了 dubbo 相关的一些问题之后,已经确认你对分布式服务框架/RPC框架基本都有一些认知了。那么他可能开始要跟你聊分布式相关的其它问题了。分布式锁这个东西,很常用的,你做 Java 系统开发,分布式系统,可能会有一些场景会用到。最常用的分布式锁就是基于 zookeeper

2020-05-19 11:54:38 95

原创 分布式缓存Redis面试题

来源:https://github.com/shishan100/Java-Interview-Advanced面试题redis 和 memcached 有什么区别?redis 的线程模型是什么?为什么 redis 单线程却能支撑高并发?面试官心理分析这个是问 redis 的时候,最基本的问题吧,redis 最基本的一个内部原理和特点,就是 redis 实际上是个单线程工作模型,你要是这个都不知道,那后面玩儿 redis 的时候,出了问题岂不是什么都不知道?还有可能面试官会问问你 red

2020-05-19 10:49:19 75

原创 kafa面试问题

参考:https://github.com/shishan100/Java-Interview-Advanced 为什么使用消息队列?消息队列有什么优点和缺点?Kafka、ActiveMQ、RabbitMQ、RocketMQ 都有什么优点和缺点?为什么使用消息队列? 使用消息队列具有解耦,异步,消峰的作用。消息队列有什么优点和缺点? 优点: 使用消息队列具有解耦,异步,消峰的作用, 缺点:提高了系统的复杂性,需要考虑更多新的问题, ...

2020-05-16 13:16:48 86

转载 spark记录(18)SparkStreaming+kafka receiver和directed模式

一、receiver模式1 、receiver模式原理图2 receiver模式理解:在SparkStreaming程序运行起来后,Executor中会有receiver tasks接收kafka推送过来的数据。数据会被持久化,默认级别为MEMORY_AND_DISK_SER_2,这个级别也可以修改。receiver task对接收过来的数据进行存储和备份,这个过程会有节点之间的数...

2019-11-06 15:56:09 65

转载 spark记录(20)自定义累加器Accumulator

自定义累加器/** * 自定义累加器需要继承AccumulatorV2<IN,OUT>类 * 并且要指定要累加的类型 */public class MyAccumulator extends AccumulatorV2<MyKey,MyKey> implements Serializable { /** * 该累加状态是在Driver端初始...

2019-11-06 15:52:20 38

转载 Redis(五):常见面试题目详解

1、什么是RedisRedis 是一个基于内存的高性能 key-value数据库。支持多种数据类型2、简单描述Redis的特点Redis本质上是一个key-value类型的内存数据库,很像memcached,整个数据库统统加载在内存当中进行操作,定期通过异步操作把数据库数据(内存中)flush到硬盘上进行保存。纯内存操作,Redis的性能非常出色,每秒可以处理超过10万次读写操作,...

2019-11-03 16:40:41 27

转载 sparkstreaming消费kafka数据,如果发生消息积压,如何处理?

1.首先是为什么会发生消息积压?原因在默认情况下,SparkStreaming 通过receivers(或者Direct方式)以生产者生产数据的速率接收数据。当Batch procecing time > batch interval 的时候,也就是每个批次数据处理的时间要比SparkStreaming批处理间隔时间长;越来越多的数据被接收,但是数据的处理速度没有跟上,导致系统开会出...

2019-11-02 22:02:08 384

转载 Java Spark自定义累加器的实现

Spark自定义累加器需要实现AccumulatorParam!!!!!!需要注意的是 ,源码中给出也就是说两个方法的实现是不一样的。下面是我的实现TimeAccumulator.javaimport constant.Constants;import org.apache.spark.AccumulatorParam;import util.Strin...

2019-11-01 21:17:10 170

转载 Spark Streaming(三):DStream的transformation操作

收藏链接:https://www.jb51.net/article/163065.htm1、updateStateByKey 作用 可以让我们为每个key维护一份state,并持续不断的更新该state; 使用 1、首先,要定义一个state,可以是任意的数据类型; 2、其次,要定义state更新函数——指定一个函数如何使用之前state和新值来更新state;...

2019-11-01 20:36:14 37

转载 Spark Streaming之updateStateByKey以及基于缓存的实时wordcount程序

updateStateByKeyupdateStateByKey操作,可以让我们为每个key维护一份state,并持续不断的更新该state。首先,要定义一个state,可以是任意的数据类型; 其次,要定义state更新函数——指定一个函数如何使用之前的state和新值来更新state。 对于每个batch,Spark都会为每个之前已经存在的key去应用一次state更新函数,无论这个...

2019-10-31 22:21:03 28

转载 spark transformation算子

一、什么是RDD算子答:所谓RDD算子,就是RDD中定义的函数,可以对RDD中的元素进行转换和操作。二.算子的分类算子分为两类:转换算子(Transformation)和行动算子(Action)。转换算子(Transformation):操作时延迟计算的,也就是一个RDD转换为另外一个RDD不是马上执行的,需要等到行动算子(Action)执行的时候,才会真正触发。 行动算子...

2019-10-31 14:59:59 13

转载 大数据实时阶段----【Spark04之sparkStreaming整合flume、sparkStreaming整合kafka (★★★★★)】

spark_入门04学习笔记1、目标1、掌握sparkStreaming原理和架构2、掌握DStream常用的操作3、掌握sparkStreaming整合flume4、掌握sparkStreaming整合kafka (★★★★★)2、sparkStreaming概述2.1 sparkStreaming是什么Spark Streaming makes it easy to build...

2019-10-12 20:05:57 30

转载 Spark Streaming + Kafka集成指南

收藏链接:https://blog.51cto.com/14048416/2339917Spark Streaming + Kafka集成指南Kafka项目在版本0.8和0.10之间引入了一个新的消费者API,因此有两个独立的相应Spark Streaming包可用。请选择正确的包,请注意,0.8集成与后来的0.9和0.10代理兼容,但0.10集成与早期的代理不兼容。注意:从Spar...

2019-10-12 19:08:52 54

转载 spark消费kafka的两种方式

Spark-Streaming获取kafka数据的两种方式Receiver与Direct一、基于Receiver的方式这种方式使用Receiver来获取数据。Receiver是使用Kafka的高层次Consumer API来实现的。receiver从Kafka中获取的数据都是存储在Spark Executor的内存中的(如果突然数据暴增,大量batch堆积,很容易出现内存溢出的问题),然后...

2019-10-12 18:55:50 430

转载 推荐几个可在线运行的Linux环境,可供学习使用

原文链接:https://www.jianshu.com/p/8b25f290e5471.Unix Terminal Online打开连接:http://www.tutorialspoint.com/unix_terminal_online.php进入以下页面:输入命令:ls -l2.www@cb.vu打开网址:http://cb.vu/进入以下页面:...

2019-10-10 09:18:35 2610

转载 reshape(-1,1)什么意思 numpy.reshape

大意是说,数组新的shape属性应该要与原来的配套,如果等于-1的话,那么Numpy会根据剩下的维度计算出数组的另外一个shape属性值。举几个例子或许就清楚了,有一个数组z,它的shape属性是(4, 4) z = np.array([[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12], [13, 14, 15...

2019-10-05 16:52:32 48

转载 Spark之CASE...WHEN...THEN...的两种实现方式

在Spark中,dataframe是常用的数据格式,类似于数据库中的表。本文将介绍如何在dataframe中实现CASE…WHEN…THEN的两种方法。一种是将dataframe看成数据库中的表,即使用createOrReplaceTempView()函数,之后利用数据库的CASE…WHTN…THEN进行操作。另一种方法是,利用pyspark.sql.functions的when().othe...

2019-07-22 11:24:51 1082

转载 Python 从零开始爬虫(三)——实战:requests+BeautifulSoup实现静态爬取

原文链接:https://segmentfault.com/a/1190000014515635前篇全片都是生硬的理论使用,今天就放个静态爬取的实例让大家体验一下BeautifulSoup的使用,了解一些背后的原理。顺便在这引入静态网页的概念——静态网页是指一次性加载所有内容的网页,爬虫一次请求便能得到所有信息,对爬虫非常友好,适合练手豆瓣top250电影信息爬取这是一个老掉牙的经...

2019-07-03 10:14:58 182

转载 Python 从零开始爬虫(二)——BeautifulSoup解析网页

原文链接:https://segmentfault.com/a/1190000014512935学了requests,了解了伪装技巧后,终于能爬到些比较正常的网页源码(html文档)了,但这离结果还差最后和是最重要的一步——筛选。这个过程就像在泥沙中淘金一样,没有合适的筛子,你就会把有价值的漏掉了,或者做了无用功把没用的也筛了出来。淘金者看土质,做筛子。对应到爬虫领域就是观察html,...

2019-07-03 10:12:31 131

转载 Python 网络爬虫入门详解

原文链接:https://blog.csdn.net/qq_38520096/article/details/79189161什么是网络爬虫网络爬虫又称网络蜘蛛,是指按照某种规则在网络上爬取所需内容的脚本程序。众所周知,每个网页通常包含其他网页的入口,网络爬虫则通过一个网址依次进入其他网址获取所需内容。优先申明:我们使用的python编译环境为PyCharm...

2019-06-14 19:42:47 184

转载 Kaggle入门,看这一篇就够了

笔记:Kaggle入门,看这一篇就够了https://zhuanlan.zhihu.com/p/25686876

2019-06-12 17:39:00 315

原创 Python调用微信的模块itchat

https://itchat.readthedocs.io/zh/latest/

2019-06-11 14:51:16 545

转载 pip自动生成和安装requirements.txt

python 安装指定版本的包 pip命令使用pip命令安装1.9.1的networkx包,命令如下:pip install networkx==1.9.1pip自动生成和安装requirements.txt生成requirements.txt文件pip freeze > requirements.txt安装requirements.txt依赖...

2019-05-27 15:49:53 1501

转载 预处理数据的方法总结(使用sklearn-preprocessing)

原文链接:https://blog.csdn.net/sinat_33761963/article/details/53433799预处理数1. 标准化:去均值,方差规模化Standardization标准化:将特征数据的分布调整成标准正太分布,也叫高斯分布,也就是使得数据的均值维0,方差为1.标准化的原因在于如果有些特征的方差过大,则会主导目标函数从而使参数估计器无法正确地去学习其他...

2019-05-21 15:23:40 62

转载 pandas中list于dataframe的相互转化

Pandas将列表(List)转换为数据框(Dataframe)原文链接地址:https://blog.csdn.net/claroja/article/details/64439735Python中将列表转换成为数据框有两种情况:第一种是两个不同列表转换成一个数据框,第二种是一个包含不同子列表的列表转换成为数据框。第一种:两个不同列表转换成为数据框from pandas.c...

2019-05-20 14:52:21 2065

转载 鸢尾花(iris)数据集分析

原文链接:https://www.jianshu.com/p/52b86c774b0bIris 鸢尾花数据集是一个经典数据集,在统计学习和机器学习领域都经常被用作示例。数据集内包含 3 类共 150 条记录,每类各 50 个数据,每条记录都有 4 项特征:花萼长度、花萼宽度、花瓣长度、花瓣宽度,可以通过这4个特征预测鸢尾花卉属于(iris-setosa, iris-versicolour...

2019-05-12 22:51:50 3059

转载 利用sklearn中pipeline构建机器学习工作流

原文链接:https://blog.csdn.net/anshuai_aw1/article/details/82498857当我们对训练集应用各种预处理操作时(特征标准化、主成分分析等等), 我们都需要对测试集重复利用这些参数,以免出现数据泄露(data leakage)。pipeline 实现了对全部步骤的流式化封装和管理(streaming workflows with pipeli...

2019-05-12 14:42:19 96

转载 sklearn 中的 Pipeline 机制

原文链接:https://blog.csdn.net/lanchunhui/article/details/50521648from sklearn.pipeline import Pipeline1管道机制在机器学习算法中得以应用的根源在于,参数集在新数据集(比如测试集)上的重复使用。管道机制实现了对全部步骤的流式化封装和管理(streaming workflows with pip...

2019-05-07 11:49:04 50

提示
确定要删除当前文章?
取消 删除