自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(173)
  • 资源 (6)
  • 论坛 (1)
  • 收藏
  • 关注

原创 超详细的Hadoop集群部署

本文建立在已经把虚拟机ip环境等已经下载好情况下。那么,直接开始今天的正题:搭建集群环境准备这里提供两种思路:一种是将一台直接搭建好,后面的克隆或者copy虚拟机一种是3台并进,多次进行虚拟机之间文件互传,各有利弊,第一种方式容易漏改ip等问题,第二种方式简单明了,一遍过手,就是步骤稍微多一点,这里采用第二种方式:1、配置服务器(我这里是以3台为例)1个主节点:hadoop1(...

2019-11-08 00:07:13 1506 2

原创 关于java 实体类与json 实体类集合与jsonArray的相互转换

最近项目中要多次使用到java 实体类与json 实体类集合与jsonArray的相互转换,接下来把遇到的问题和方法分享一下:class Stu { private String s1; private String s2; private String s3; public String getS1() { return s1; }...

2019-10-23 17:03:14 823

原创 关于Map的几种遍历方式

Map之遍历:关于集合这块需要写的东西其实挺多的,集合有自己的顶级接口Collection,底下又有map和list两个接口,接下来我们谈一谈关于map集合方面的东西。map是java中非常常用的一种数据结构,提供get和put两个常用的方法;map虽然继承了Collection,但却没有实现Collection的Iterator 方法,自身没有迭代器来遍历元素接下来言归正传,对于map的遍历也是...

2018-03-16 10:16:29 284

原创 用idea新建maven项目,创建Scala项目--做个记录

最近需要个干净的spark项目,之前项目上的项目太过复杂,就索性搭建一个全新的spark-java maven项目,做个记录,免得下次又得找,步骤如下:一、 新建maven项目1. File-> New -> project -> macen -> 勾选Create From archetype2. 设置GroupID和ArtifactID (这个你看这写),点击next3.配置maven,如果不配最后进到项目也可以配置,建议提前配好;file->set

2021-06-15 11:33:06 29 1

转载 redis缓存雪崩、穿透、击穿概念、布隆过滤器小结及解决办法

判存业务redis缓存雪崩、穿透、击穿概念及解决办法什么是概念:1.缓存雪崩对于系统 A,假设每天高峰期每秒 5000 个请求,本来缓存在高峰期可以扛住每秒 4000 个请求,但是缓存机器意外发生了全盘宕机。缓存挂了,此时 1 秒 5000 个请求全部落数据库,数据库必然扛不住,它会报一下警,然后就挂了。此时,如果没有采用什么特别的方案来处理这个故障,DBA 很着急,重启数据库,但是数据库立马又被新的流量给打死了。解释二:缓存雪崩是指缓存中数据大批量到过期时间,而查询数据量巨

2021-05-10 14:01:45 28

原创 grpc通信服务

其实很久没有搞过服务这个东西了,以前用的是TCP、http这种,后来用了Netty今天我们再说个grpc服务:为什么会用到这个呢,我说一下我的场景:做机器学习部署模型,有这么几种模型部署方式,1、tfserver -- 只支持tensorflow的模型代码2、pmml 模型服务,这种封装的比较死,灵活度不高,但是小公司用起来也足够了3、grpc -- 也是今天我们要说的这个grpc一种server - client模式,这个就比较熟悉了,我们常用的netty、socket都是这种

2021-04-30 13:17:16 88 2

原创 使用python,发布简单rest接口

使用Python实现一个简单的接口服务,可以通过get、post方法请求该接口,拿到响应数据。(前提该装的包都装好了)新建py文件,加入如下内容# -*- coding: utf-8 -*-from flask import Flaskfrom flask import requestimport flask, jsonapp = Flask(__name__)@app.route('/', methods=['get', 'post'])def index(): retu

2021-04-29 09:56:02 78 1

原创 机器学习总结

1.连续特征的离散化:在什么情况下将连续的特征离散化之后可以获得更好的效果?在工业界,很少直接将连续值作为逻辑回归模型的特征输入,而是将连续特征离散化为一系列0、1特征交给逻辑回归模型,这样做的优势有以下几点:0. 离散特征的增加和减少都很容易,易于模型的快速迭代;1. 稀疏向量内积乘法运算速度快,计算结果方便存储,容易扩展;2. 离散化后的特征对异常数据有很强的鲁棒性:比如一个特征是年龄>30是1,否则0。如果特征没有离散化,一个异常数据“年龄300岁”会给模型造成很大的干扰;3

2021-04-22 14:53:18 66

转载 Spyder 快捷键大全(转)

主要介绍了Spyder常见的快捷键,从spyder的配置表中导出,中文名称为直译。常用快捷键快捷键 中文名称Ctrl+R 替换文本Ctrl+1 单行注释,单次注释,双次取消注释Ctrl+4 块注释,单次注释,双次取消注释F5 运行程序Ctrl+P 文件切换Ctrl+L 清除shellCtrl+I 查看某个函数的帮助文档Ctrl+Shift+V 调出变量窗口Ctrl+up 回到文档开头Ctrl+down 回到文档末尾...

2021-04-22 11:35:45 61

原创 sklearn中的metrics.roc_auc_score评价指标

参数说明from sklearn.metrics import roc_auc_scoreroc_auc_score(y_true, y_score, *, average='macro', sample_weight=None,max_fpr=None, multi_class='raise', labels=None)计算曲线ROC的面积- Parameters(参数) y_true : array-like of shape (n_samples,) or ...

2021-04-15 18:00:35 256

原创 泰勒公式--泰勒多项展开以及应用

一、概念1.一句话概括泰勒展开式:用多项式去无限逼近一个函数,就是将某个函数在一个点上泰勒展开。泰勒级数是把一个函数展开,化成次方项相加的形式,目的是用相对简单的函数去拟合复杂函数,此时相对简单是看你需要的,一阶指展开的次数最高为1,二阶指展开次数最高为2。泰勒公式的几何意义是利用多项式函数来逼近原函数,由于多项式函数可以任意次求导,易于计算,且便于求解极值或者判断函数的性质,因此可以通过泰勒公式获取函数的信息,同时,对于这种近似,必须提供误差分析,来提供近似的可靠性。2.为什么

2021-04-07 11:12:33 642

原创 机器学习——二分类、多分类的精确率和召回率

机器学习有很多评估的指标。有了这些指标我们就横向的比较哪些模型的表现更好。我们先从整体上来看看主流的评估指标都有哪些:分类问题评估指标:准确率 – Accuracy 精确率(差准率)- Precision 召回率(查全率)- Recall F1分数 ROC曲线 AUC曲线回归问题评估指标:MAE MSE接下来我们看看分类模型的评估指标:本文我们就来聊一聊准确率、召回率、精确率1、混淆矩阵了解上述概念前,我们先了解一下混淆矩阵混淆矩阵也称误差矩阵,是表示精度

2021-03-26 13:56:00 369

原创 Spark Yarn内存资源计算分析(参考)--Executor Cores、Nums、Memory优化配置

Spark on Yarn Executor Cores、Nums、Memory优化配置三方面内容:executor 核心数目,executor 数量,executor 内存。对于driver memory 这个参数,设置比较灵活,一般1-8,这里不就不多说设置以上三个参数,除了计算集群的节点数、节点Cores和内存大小外,还需要考虑以下四点因素:spark使用yarn做资源管理,yarn后台使用一些守护进程中运行的,如NameNode,Secondary NameNode,DataNode,J

2021-03-18 19:11:03 65

原创 矩阵分解

1.先了解一下 矩阵的内积(点乘)、外积(叉乘)矩阵的内积参照向量的内积的定义的,先说说向量:两个向量对应分量乘积之和,比如: α=(1,2,3), β=(4,5,6),则 α, β的内积等于 1*4 +2*5 + 3*6 = 32 ,α与α 的内积 = 1*1+2*2+3*3 = 14那么矩阵呢?矩阵内积(花书中叫做元素对应乘积)是矩阵对应元素乘积之和,即矩阵的对应元素相乘,因此要求两矩阵 A 和 B 的必须是同型矩阵设Ann=[aij](其中1<=i,j<=n),Bnn...

2021-03-11 17:20:39 82

原创 python中几种括号的用法()、[]、{} 举例说明

在Python语言中最常见的括号有三种,分别是:小括号()、中括号[]、花括号{};其作用也不相同,分别用来代表不同的Python基本内置数据类型。因博主是java出身,所以会举一些Java的类比。python不像java需要在定义的时候强制定义类型,所以括号就是几种基本数据类型。Python中的小括号():tuple代表tuple元组数据类型,元祖是一种不可变序列。创建方法很简单,大多数时候都是小括号括起来的。这个类似java中的数组,定义后内容不可变Python中的中括号[]:list

2021-03-08 14:41:38 1184

原创 一文搞懂one-hot和embedding

在 NLP领域,word embedding 已经成为了众所周知的技术。在现实生活中 word embedding 已经拥有非常广泛的应用:语音助手、机器翻译、情感分析… 因为 word embedding 的特殊性,它几乎覆盖了所有 NLP 的应用。接下来说说 传统的 one-hot 编码开始,阐述其优劣,并延伸至 word embedding 技术和其优点人类可以很轻易地理解一个单词、词组或者字母,比如「LOVE」,但机器是理解不了的。想要让机器理解单词,就必须要把它变成一串数字(向量)。下面介绍.

2021-03-02 16:49:13 938 3

转载 Java 基础之 Java IO

1.1 字节流和字符流使用情况:字符流和字节流的使用范围:字节流一般用来处理图像,视频,以及PPT,Word类型的文件。字符流一般用于处理纯文本类型的文件,如TXT文件等,字节流可以用来处理纯文本文件,但是字符流不能用于处理图像视频等非文本类型的文件。 FileReader fr = new FileReader("C:\\Users\\admin\\Desktop\\4\\demo.txt"); BufferedReader bf = new BufferedReader(fr); //..

2021-02-23 09:14:28 45

转载 java 将文件或者字符串写入zip及浏览器页面显示

文件直接写入zip,包括层级目录1.这个工具类的功能为:(1)可以压缩文件,也可以压缩文件夹 (2)同时支持压缩多级文件夹,工具内部做了递归处理 (3)代码中提供了2个压缩文件的方法,一个的输入参数为文件夹路径,一个为文件列表,可根据实际需求选择方法。 (4)可以选择是否保留原来的目录结构,如果不保留,所有文件跑压缩包根目录去了,且空文件夹直接舍弃。注意:如果不保留文件原来目录结构,在碰到文件名相同的文件时,会压缩失败。 (5)碰到空的文件夹,也可以压缩 下面直接...

2021-02-22 14:12:05 55

转载 javaweb开发之get与post请求的区别

GET和POST是HTTP请求的两种基本方法,要说它们的区别,接触过WEB开发的人都能说出一二。最直观的区别就是GET把参数包含在URL中,POST通过request body传递参数。你可能自己写过无数个GET和POST请求,或者已经看过很多权威网站总结出的他们的区别,你非常清楚知道什么时候该用什么。当你在面试中被问到这个问题,你的内心充满了自信和喜悦。你轻轻松松的给出了一个“标准答案”:GET在浏览器回退时是无害的,而POST会再次提交请求。 GET产生的URL地址可以被Bo.

2021-02-20 16:49:47 27

原创 python数据分析常用图大集合

我们在做数据分析的时候,难免会用到图像来表示你要展示的东西,接下来写一下demo来表示一下各种图:以下默认所有的操作都先导入了numpy、pandas、matplotlib、seabornimport numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as sns数据源地址:github地址:https://github.com/mwaskom/seaborn-data 解压缩文件,

2021-01-18 14:49:37 62

原创 python语法基础

1.import 和 from … import 模块的变量、方法引用差异from pandas import DataFrame from…import // 直接使用函数名使用就可以了import pandas as pd import //模块.函数a.import…asimport:导入一个模块;注:相当于导入的是一个文件夹,是个相对路径import A as B:给予工具库 A 一个简单的别称 B ,可以帮助记忆。例:import torc...

2021-01-14 14:48:01 53 2

原创 读取jar包里面文件夹下的所有文件

这块先抛出问题所在:当文件在resource中时,如果在本地直接读,那么是可以读到的,当打成jar包后,就得不到路径,对这个问题做如下总结:我们都知道springboot默认的方式是打包成jar包执行的,这个时候如果需要遍历某个路径下的所有文件夹和文件,按照我们常规的方式是使用File来处理,但是这里由于是jar包,所以使用File类会出现找不到路径的错误,本文介绍一种可以读取文件夹下所有内容的方式public static void main(String[] args) throws IO

2021-01-06 16:10:33 286

原创 循序渐进大数据组件之--Spark中cache和persist的区别

1.首先解释一下这两个方法的作用:为spark做持久化,cache和persist都是用于将一个RDD进行缓存的,这样在之后使用的过程中就不需要重新计算了,可以大大节省程序运行时间Spark 中一个很重要的能力是将数据持久化(或称为缓存),在多个操作间都可以访问这些持久化的数据。当持久化一个 RDD 时,每个节点的其它分区都可以使用 RDD 在内存中进行计算,在该数据上的其他 action 操作将直接使用内存中的数据。这样会让以后的 action 操作计算速度加快(通常运行速度会加速 10 倍)。缓

2020-12-29 18:07:12 30

原创 循序渐进大数据组件之--Hadoop

最近学习了Hadoop,做一些小的总结:hadoop 两大核心1.hdfs : 用于存储数据1.1 分块 block 默认128mb,1.2 不足128mb的数据,只占其本身的大小,128mb就是是一个逻辑概念1.3 block会默认复制三份,用来防治 数据丢失。1.4 hdfs不适用存大量小文件,元数据信息过多导致NameNode压力增加1.5NameNode:管理dataNode 读写数据负责元数据管理,当client端 要读取或者写入数据,会首先跟NN通信,然后NN指定你去...

2020-12-24 18:34:34 59 2

原创 推荐算法中点击率CTR修正方法—威尔逊区间

最近学习了hive的udf,ctr修正案例,做个简单小总结:CTR = 点击数 / 曝光数由于原始CTR计算方式只考虑了相对值,没有考虑绝对值。即,没有考虑曝光的数值大小,在曝光少的情况下,计算出的CTR其实不可靠,样本充足的情况下,才能反应真实情况举例:此三个广告的CTR 都是 0.5 ,但是按照实际表现,从置信的角度分析,应该是C > B > A,因为C的样本数更多,可信度更高。为了衡量样本数对于 CTR 置信区间的影响,科学家们引入"威尔逊(Wilson)区间"的概念。

2020-12-21 14:05:48 160

转载 Spark为什么只有在调用action时才会触发任务执行呢(附算子优化和使用示例)?

Spark算子主要划分为两类:transformation和action,并且只有action算子触发的时候才会真正执行任务。还记得之前的文章《Spark RDD详解》中提到,Spark RDD的缓存和checkpoint是懒加载操作,只有action触发的时候才会真正执行,其实不仅是Spark RDD,在Spark其他组件如SparkStreaming中也是如此,这是Spark的一个特性之一。像我们常用的算子map、flatMap、filter都是transformation算子,而collect、cou

2020-12-18 10:56:28 123

原创 plsql Registration code

plsql注册码:Product Code:4t46t6vydkvsxekkvf3fjnpzy5wbuhphqzserial Number:601769password:xs374ca这个的确比较好用,大家有其他方面需要激活的可以联系博主,博主qq:907044657...

2020-12-16 20:00:25 10482 5

转载 (0)【机器学习】机器学习综述与“Hello World”实战(附带5个实例)

本文转载自大神:橘子派的(0)【机器学习】机器学习综述与“Hello World”实战(附带5个实例)http://blog.csdn.net/sileixinhua/article/details/73611056感谢博主的文章本文结构思维导图概述友情提示:1. 对于本文中数据集,训练集,特征点,空间等基础概念,请参考周志华老师的《机器学习》第一章的内容2. Python的语法并不难理解,有编码基础的可以直接看懂,如果不懂,请参考廖雪峰老师的个人博客中Python的教学内容..

2020-12-14 15:43:34 175

原创 循序渐进大数据组件之--Hive

最近学习了一下hive,对其有一些想法,写出来分享一下,本文有些内容转自搜狐文章,文底部会贴出:目录导读:同时补充一下hive与hbase的联系与区别:拓展:hive的几个特点和用法:创建:查询:函数:存储:分区:顺便简单的说一下 sqoop:导读:对于一个事物的认识,存在几种情况1.没有接触,不知道这个事物是什么,所以不会产生任何问题。2.接触了,但是不知道他是什么,反正我每天都在用。3.有一定的了解,不够透彻。那么hive,1.我们对它

2020-12-04 15:35:14 65

原创 禅道的下载和安装教程(Linux版)

搭建步骤1、 先下载包下载禅道包的地址:https://www.zentao.net/download/zentaopms12.4.3-80272.htmlLinux的版本和系统位数查询方法2.安装方法,推荐使用一键安装包,我的服务器是Cento 7 64位禅道安装步骤,跟着官网走就行了(几乎完全傻瓜式):https://www.zentao.net/book/zentaopmshelp/90.html3.换公司名称:https://www.zentao.ne

2020-12-03 14:23:05 83

原创 CentOS7安装CDH6.2.0安装过程--详细版

准备建议最少4台物理机或者虚拟机(一个控制节点,3个数据节点),4核16G,硬盘500G,挂载根目录 如果用于学习,可以4核8G,如果是生产部署,推荐8核32G以上 系统为CentOS7.6,使用root用户登录 CDH版本为6.2.0节点说明规划:cdh1 主节点cdh2 从节点cdh3 从节点cdh4 从节点基础配置挂载磁盘操作请参考这篇文章 : https://blog.csdn.net/Alex_81D/article/details/10504...

2020-11-19 10:08:23 418

原创 Linux:挂载iso镜像和过程中出现的问题

1.首先把iso镜像包发送过来2.;https://blog.csdn.net/weixin_43866699/article/details/84997120订阅插件提示:This system is not registered with an entitlement server. You can use subscription-manager tohttps://blog.csdn.net/oraoharu/article/details/106808108linux unzip命

2020-11-12 09:33:38 218

原创 CentOS 7.5x64 系统安装

CentOS 7.4x64 系统安装完成后配置安装CentOS操作系统在进入系统引导后,会进入文字界面,选择install CentOS7(用键盘上的方向键↑、↓来选择要执行的操作,白色字体表示选中,按下回车,进入下一步操作)按回车执行安装过程选择安装的语言设置安装类型点击“软件选择”,默认是最小安装,只有系统功能,完全使用命令行操作选择“带GUI的服务器”,若是安装到服务器上可以选择右边附带的软件,在安装的时候会一并安装,这里没有安装的话,后期也可以在系统安

2020-10-19 11:06:25 138 2

原创 java读取文本文件内容

背景:需要读取文件中普通字符串,方法解读:java读取文本文件内容public class Chaifen { public static String readFileContent(String fileName) { File file = new File(fileName); BufferedReader reader = null; StringBuffer sbf = new StringBuffer(); try {

2020-10-16 14:57:25 107

转载 5类系统推荐算法,非常好使,非常全

◆ ◆ ◆  序言  最近因为PAC平台自动化的需求,开始探坑推荐系统。这个乍一听去乐趣无穷的课题,对于算法大神们来说是这样的:    而对于刚接触这个领域的我来说,是这样的:    在深坑外围徘徊了一周后,我整理了一些推荐系统的基本概念以及一些有代表性的简单的算法,作为初探总结,也希望能抛砖引玉,给同样想入坑的伙伴们提供一些思路。  ◆ ◆ ◆  什么是推荐系统  1. 什么是推荐系统?  推荐系统是啥?  如果你是个多年电商(剁手)党,你会说是这个:  

2020-10-16 11:56:12 318

转载 scala基础语法-----Spark基础

scala基本语法我们可以根据scala 菜鸟教程来学习地址为:https://www.runoob.com/scala/scala-tutorial.htm1.变量声明/*** 定义变量使用var或者val关 键 字* 语法:* var | val 变量名称(: 数据类型) =变量值 */// 使用val修饰的变量, 值不能为修改,相当于java中final修饰的变量val name = "tom"...

2020-09-29 18:11:45 170

原创 Spark小Demo,连接mongo,并处理密码或者用户名带特殊符号

sprak小demo,用spark连接mongodb,并且处理密码或者用户名带特殊符号的方法import java.net.URLEncoderimport com.mongodb.spark.MongoSparkimport com.mongodb.spark.config.ReadConfigimport org.apache.spark.sql.SparkSessionimport org.junit.Testclass FlowTest2 { @Test def te.

2020-09-11 15:01:57 321

原创 Mybatis中foreach属性的含义

MyBatis的foreach语句详解foreach的主要用在构建in条件中,它可以在SQL语句中进行迭代一个集合。foreach元素的属性主要有 item,index,collection,open,separator,close。item集合中每一个元素进行迭代时的别名,index表示在迭代过程中,每次迭代到的位置,open该语句以什么开始,separator在每次进行迭代之间以什么符号作为分...

2020-06-23 18:21:27 14628 7

原创 CentOS7安装CDH6.2.0以及CDH安装过程的坑

Can't open /var/run/cloudera-scm-agent/process/261-hdfs-DATANODE/supervisor.conf: Permission denied.这个问题先处理权限问题,处理完事儿后再试,sduochmod-R777/usr/local/hadoop/logschown-Rcloudera-scm:cloudera-scm/var/*不行再用第二种方法;怀疑是权限问题,上网查询了之后,才知道看起来...

2020-06-03 16:17:23 963

原创 Spring Boot配置文件放在jar外部的几种方案

springboot读取外部配置文件的方法,如下优先级:第一种是在执行命令的目录下建config文件夹。(在jar包的同一目录下建config文件夹,执行命令需要在jar包目录下才行),然后把配置文件放到这个文件夹下。第二种是直接把配置文件放到jar包的同级目录。第三种在classpath下建一个config文件夹,然后把配置文件放进去。第四种是在classpath下直接放配置文件。springboot默认是优先读取它本身同级目录下的一个config/application.properties

2020-06-03 15:13:26 280

Linux版 tomcat8.0 下载

linux下的tomcat 8,jsp和servlet的开发基础服务器.版本是8.0.52,需要的可以下来试试。亲测好用,关于Tomcat的其他问题也可以咨询小编

2018-05-23

springboot+ajax的小例子

适合初学者,里面包括SpringBoot的例子以及thymleaf的用法及Springdate-JPA进行操作前台跟数据库,比较有帮助

2018-04-20

json转换时所需jar

配置服务端所需要的jar文件,包括commons-logging commons-beanutils commons-lang ezmorph json-lib-2.4-jdk15 commons-collections-3.2.1等在内的六个资源文件jar包,关于json报错的问题直接加入这些jar包,就OK了,有什么需要可以直接联系小编

2018-03-23

MySQL学习笔记

MySQL学习资料,从SQL到PLSQL全部都有,需要的同学可以看看

2018-03-23

64位windows jdk1.7

64位windows jdk1.7,win7、win10都支持,亲测可用,如有其它需要也可直接联系小编,907044657@qq.com

2018-08-07

Netty网络框架学习资源(珍藏版)

本课件为Netty详细教学电子书,里面包括Netty的通信协议,已经全部API和加解密方式进行了详细讲解,对新手和老手都很有帮助

2018-05-03

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除