自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(118)
  • 资源 (1)
  • 收藏
  • 关注

原创 罗伯特·蒙代尔教授

1956年 获美国麻省理工学院(MIT)经济学博士 1961年 任职于国际货币基金组织 1966~1971年 在斯坦福大学和约翰霍普金斯大学任教 1970年 任欧洲经济委员会货币委员会顾问 1971~1987年 任SantaColomba国际货币改革会议主席 1972~1973年 统一欧洲货币报告的九名顾问之一...

2019-03-29 17:59:11 521

原创 三元悖论

 罗伯特·蒙代尔(Robert A. Mundell)在研究了20世纪50年代国际经济情况以后,提出了支持固定汇率制度的观点。20世纪60年代,蒙代尔和J.马库斯·弗莱明(J.Marcus Fleming)提出的蒙代尔—弗莱明模型(Mundell-Fleming Model)对开放经济下的IS-LM模型进行了分析,堪称固定汇率制下使用货币政策的经典分析。该模型指出,在没有资本流动的情况下,货币政策...

2019-03-29 16:48:43 1596

原创 机器学习总结(四):RF,SVM和NN的优缺点

1. 随机森林优缺点随机森林(RF)是Bagging的一个扩展变体。RF在以决策树为基分类器进行集成的基础上,进一步在决策树的训练过程中引入了随机属性选择。Bagging就是对数据集训练多个基分类器,然后将基分类器得到的结果进行投票表决作为最终分类的结果。基分类器在构建过程中需要尽可能保证训练出的基分类器有比较大的差异性,这就需要用对训练样本集进行采样,不同的基分类器训练不同的样本集。但是样...

2019-03-29 15:39:28 1505

原创 深度学习各种常见的Net

LeNet:基于渐变的学习应用于文档识别AlexNet:具有深卷积神经网络的ImageNet分类ZFNet:可视化和理解卷积网络VGGNet:用于大规模图像识别的非常深的卷积网络NiN:网络中的网络GoogLeNet:卷入更深入Inception-v3:重新思考计算机视觉的初始架构ResNet:图像识别的深度残差学习Stochastic_Depth:具有随机深度的深...

2019-03-29 14:19:08 205

原创 [计算机网络]一个完整的TCP连接

当我们向服务器发送HTTP请求,获取数据、修改信息时,都要建立TCP连接,包括三次握手,四次挥手。什么是TCP连接?为了实现可靠的数据传输,TCP要在应用进程之间建立传输连接。它是在两个传输用户之间建立一种逻辑联系,使得通信双方都确认对方为自己的传输端点。建立连接:建立连接前,服务器端首先被动打开其熟知的端口,对端口进行监听。当客户端要和服务器端建立连接时,发起一个主...

2019-03-29 14:02:43 390

原创 RF(随机森林)算法原理及其派生算法

1.前言集成学习有两个流派,一个是boosting派系,它的特点是各个弱学习器之间有依赖关系。另一种是bagging流派,它的特点是各个弱学习器之间没有依赖关系,可以并行拟合。本文就对集成学习中Bagging与随机森林算法做一个总结。随机森林是集成学习中可以和梯度提升树GBDT分庭抗礼的算法,尤其是它可以很方便的并行训练,在如今大数据大样本的的时代很有诱惑力。2.bagging的原理ba...

2019-03-29 11:39:06 590

原创 python数据持久存储:pickle模块的基本使用

经常遇到在Python程序运行中得到了一些字符串、列表、字典等数据,想要长久的保存下来,方便以后使用,而不是简单的放入内存中关机断电就丢失数据。这个时候Pickle模块就派上用场了,它可以将对象转换为一种可以传输或存储的格式。 python的pickle模块实现了基本的数据序列和反序列化。通过pickle模块的序列化操作我们能够将程序中运行的对象信息保存到文件中去,永久存储;通过pickl...

2019-03-29 10:58:32 245

原创 [计算机网络]一个完整的TCP连接

当我们向服务器发送HTTP请求,获取数据、修改信息时,都要建立TCP连接,包括三次握手,四次挥手。什么是TCP连接?为了实现可靠的数据传输,TCP要在应用进程之间建立传输连接。它是在两个传输用户之间建立一种逻辑联系,使得通信双方都确认对方为自己的传输端点。建立连接:建立连接前,服务器端首先被动打开其熟知的端口,对端口进行监听。当客户端要和服务器端建立连接时,发起一个主...

2019-03-29 10:56:49 586

原创 pandas中关于DataFrame行,列显示不完全(省略)的解决办法

有时候DataFrame中的行列数量太多,print打印出来会显示不完全。就像下图这样:列显示不全:行显示不全:添加如下代码,即可解决。#显示所有列pd.set_option('display.max_columns', None)#显示所有行pd.set_option('display.max_rows', None)#设置value的显示长度为100,默认为50p...

2019-03-28 15:26:11 1329

原创 什么是NCQ

NCQ被称为“全速命令队列(Native Command Queuing,NCQ)”。全速命令队列是SATA II最先进和最令人期待的特性,是SATAⅡ规范中的重要组成部分,也是SATAⅡ规范唯一与硬盘性能相关的技术。NCQ是一项强大的接口/硬盘技术,它通过在硬盘内部优化作业的执行顺序来提升硬盘性能和使用寿命。全名 Advanced Host Controller Interface,中译:进阶...

2019-03-28 11:21:28 3494

原创 AHCI、RAID、IDE三种硬盘模式优缺点对比

有的时候我们在安装系统的时候,往往会进入BISO,查看SATA mode (硬盘模式) 。尤其是安装win7系统的时候,我们会选择“AHCI模式”,这究竟是为什么呢?今天小编就简单的为大家带来硬盘3种模式各自的优缺点教程,希望对大家有所帮助。AHCI、RAID、IDE三种硬盘模式优缺点对比一:IDE模式 (“IDE接口”也叫“ATA接口”,“台式机硬盘”的默认模式...

2019-03-28 11:19:25 87664

原创 安装Windows/Ubuntu双系统找不到磁盘分区解决办法

电脑换了一块大一点的固态,准备装双系统,发现安装Linux时识别不了系统硬盘,现将场景以及解决办法记录如下。安装环境介绍:* Windows10* Ubuntu18.04 LTS* Dell XPS13, UEFI启动安装步骤:先安装好Windows后,用 UltraISO制作Ubuntu启动镜像。在BIOS中关闭电脑的安全启动选项,并且在Windows电源选项中中将快速...

2019-03-28 11:02:11 7556

原创 SATA接口Raid、AHCI、IDE三种模式

今天这里分享给朋友们关于SATA接口Raid、AHCI、IDE三种模式!首先说一下,关于主板的SATA接口的工作模式,BIOS中常见的选项有以下三种:RAID(部分技嘉主板叫XHD)、AHCI、IDE。  当然,并不是每一种主板的BIOS都有这三个选项,一些不支持RAID的主板,比如H61的原生SATA接口便只有AHCI和IDE。  IDE模式是这三种之中兼容性最强的模式,几乎没有...

2019-03-28 10:28:58 34012

原创 费雪方程式

费雪方程式:是传统货币数量论的方程式之一.20 世纪初 ,美国经济学家欧文·费雪在《货币的购买力》一书中提出了交易方程式 ,也被称为费雪方程式.费雪方程可概括为:一国的名义利率反映了依该国预期的通货膨胀调整后的真实回报率,也就是说造成各国名义回报率不同的原因,仅仅是因为通货膨胀率的预期不同.在投资者可进行自由的国际投资的情况下,各地的预期真实回报趋于相等.如果出现了不相等的情况,投资者为追求较高的...

2019-03-25 15:00:38 5914

原创 拉格朗日插值法(图文详解)

拉格朗日插值法(图文详解)在数值分析中,拉格朗日插值法是以法国十八世纪数学家约瑟夫·拉格朗日命名的一种多项式插值方法。许多实际问题中都用函数来表示某种内在联系或规律,而不少函数都只能通过实验和观测来了解。如对实践中的某个物理量进行观测,在若干个不同的地方得到相应的观测值,拉格朗日插值法可以找到一个多项式,其恰好在各个观测的点取到观测到的值。这样的多项式称为拉格朗日(插值)多项式。数学上来...

2019-03-22 13:51:11 8550

原创 linux查找进程名所在目录

linux通过pid找到对应的进程所在的目录。比如:在去了一家新公司,不熟悉服务器缓存和搭建所在目录的时候,这时候就就可以通过ps查找进程,并通过进程pid找到运行的目录了;或者在我们维护服务器时,发现某个进程异常,而top和ps命令都无法看到进程所在目录的情况。这里我们来拿nginx的举例:一、找到进程的pid这里可以通过top命令查看,...

2019-03-22 11:52:28 1784

原创 linux 查看运行进程所在目录

通过ps及top命令查看进程信息时,只能查到相对路径,查不到的进程的详细信息,如绝对路径等。这时,我们需要通过以下的方法来查看进程的详细信息:Linux在启动一个进程时,系统会在/proc下创建一个以PID命名的文件夹,在该文件夹下会有我们的进程的信息,其中包括一个名为exe的文件即记录了绝对路径,通过ll或ls–l命令即可查看。ll/proc/PIDcwd符号链接的是进...

2019-03-22 11:51:23 246

原创 第57课:SparkSQL案例实战学习笔记

第57课:SparkSQL案例实战学习笔记本期内容:1.SparkSQL基础案例实战2.SparkSQL商业类型的案例进入Spark官网的sql-programming-guide:http://spark.apache.org/docs/latest/sql-programming-guide.html#getting-started可以看到The entry point in...

2019-03-20 17:34:47 398

原创 Python 的这几个技巧,简直屌爆了

我已经使用Python编程有多年了,即使今天我仍然惊奇于这种语言所能让代码表现出的整洁和对DRY编程原则的适用。这些年来的经历让我学到了很多的小技巧和知识,大多数是通过阅读很流行的开源软件,如Django, Flask,Requests中获得的。下面我挑选出的这几个技巧常常会被人们忽略,但它们在日常编程中能真正的给我们带来不少帮助。1. 字典推导(Dictionary comp...

2019-03-20 13:34:29 253

原创 【DeepLearning】PyTorch 如何自定义损失函数(Loss Function)?

文章目录1. 直接利用torch.Tensor提供的接口2. 利用PyTorch的numpy/scipy扩展3. 写一个PyTorch的C扩展1. 直接利用torch.Tensor提供的接口因为只是需要自定义loss,而loss可以看做对一个或多个Tensor的混合计算,比如计算一个三元组的Loss(Triplet Loss),我们只需要如下操作:(假设输入的三个(anchor, pos...

2019-03-20 10:44:16 1117

原创 微服务为什么一定要用docker

引言早在2013年的时候,docker就已经发行,然而那会还是很少人了解docker。一直到2014年,Martin Fowler提出了微服务的概念,两个不相干的技术终于走在了一起,创造了今天的辉煌!近几年来,很多互联网关系开始跟风,构建docker+微服务的架构体系。然而,根据笔者观察发现,有些童鞋在使用过程中,只是会用,而根本不了解为什么使用docker,反正对他们来说,公司让用就用!而...

2019-03-20 10:42:19 214

原创 java执行windows 的cmd 命令

//获取运行时Runtime rt =Runtime.getRuntime();//获取进程Process p = rt.exec(String[] cmdarray); 或者 Process p = rt.exec(String cmd);如果p不为空,那么要清空if(null!=p){destory  p.destory();  p=null;}...

2019-03-20 09:35:56 518

原创 hive 查找函数并查看函数使用方法

1.查看month相关的函数show functions like '*month*'输出如下:2.查看add_months函数的用法desc function add_months;3. 查看 add_months 函数的详细说明并举例desc function extended add_months;...

2019-03-19 15:50:55 432

原创 hive常用函数之条件判断函数IF,COALESCE,CASE

1.If函数:if和case差不多,都是处理单个列的查询结果语法: if(boolean testCondition, T valueTrue, T valueFalseOrNull)返回值: T说明:当条件testCondition为TRUE时,返回valueTrue;否则返回valueFalseOrNull举例:if(条件表达式,结果1,结果2)相当于java中的三目运算符...

2019-03-19 15:50:13 767

原创 Scala多行字符串

在Scala中可以用"""的方式创建多行字符串,eg.object StringTest { def main(args: Array[String]): Unit = { val s1 ="""This is my first time to learn Scala""" println(s1) }}输出如下:This ...

2019-03-19 10:11:14 1877

原创 Spark-RDD持久化

(1) persist算子使用方法:var rdd = sc.textFile("test")rdd = rdd.persist(StorageLevel.MEMORY_ONLY)val count = rdd.count() //或者其他操作StorageLevel说明:StorageLevel的构造函数:class StorageLevel private( pri...

2019-03-19 09:28:01 108

原创 Java使用SFTP和FTP两种连接方式实现对服务器的上传下载

一、Java实现对SFTP服务器的文件的上传下载1、添加maven依赖:<dependency> <groupId>com.jcraft</groupId> <artifactId>jsch</artifactId> <version>0.1.54</version></de..

2019-03-17 12:15:38 610

原创 Scala cmd 执行Linux命令

.!的作用是直接打印结果scala> import sys.process._import sys.process._scala> "ls -al".!总用量 24drwxrwxr-x 6 1001 1001 4096 3月 4 2016 .drwxr-xr-x 4 root root 4096 9月 13 15:53 ..drwxrwxr-x 2 1...

2019-03-17 11:29:47 1681

原创 Spark之本地模式与集群模式

Spark之本地模式与集群模式1.spark-shell的本地模式和集群模式1.1 local本地模式直接启动spark-shell命令窗口脚本启动后,会生成一个SparkContext的上下文对象sc。并且启动的是本地模式(local)。如图:1.1.1 加载本地数据sc.textFile("file:///home/hadoop/words.txt").flatMap(...

2019-03-16 16:57:22 708

原创 csv、parquet、orc读写性能和方式

索引:1.背景2.存储方式3.存储效率4.读写方式5.结论6.其他格式背景最近在做一个大数据分析平台的项目,项目开发过程中使用spark来计算工作流工程中的每一个计算步骤,多个spark submit计算提交,构成了一个工作流程的计算。其中使用csv来作为多个计算步骤之间的中间结果存储文件,但是csv作为毫无压缩的文本存储方式显然有些性能不够,所以想要寻找一个存储文件效...

2019-03-16 08:51:00 926

原创 Spark SQL, DataFrames and Datasets Guide

OverviewSpark SQL is a Spark module for structured data processing. Unlike the basic Spark RDD API, the interfaces provided by Spark SQL provide Spark with more information about the structure of bo...

2019-03-15 19:19:04 344

原创 Spark 2.4 正式发布,重要功能详细介绍

美国时间 2018年11月08日 正式发布了。一如既往,为了继续实现Spark更快,更轻松,更智能的目标,Spark 2.4带来了许多新功能,如下:添加一种支持屏障模式(barrier mode)的调度器,以便与基于MPI的程序更好地集成,例如, 分布式深度学习框架;引入了许多内置的高阶函数,以便更容易处理复杂的数据类型(比如数组和 map);开始支持 Scala 2.12;允许我们...

2019-03-15 18:30:09 375

原创 先验概率与后验概率 ,似然与条件概率

P(A)是一种先验概率P(B|A) 类条件概率.贝叶斯公式的解释:如果我们把事件A看做'结果',把诸事件B1,B2...看做导致这个结果的可能的'原因',则可以形象地把全概率公式看做成为'由原因推结果';而贝叶斯公式则恰好相反,其作用于'由结果推原因':现在有一个'结果'A以发生,在众多可能的'原因'中,到底是哪一个导致了这结果"后验概率,是一种果因概率,即在一个结果已经发生...

2019-03-15 12:08:23 736

原创 文本TF-IDF特征获取方法及文本向量化方法

一 获取文本的TF-IDF特征1. 文本向量化特征的不足    在将文本分词并向量化后,我们可以得到词汇表中每个词在各个文本中形成的词向量,比如在文本挖掘预处理之向量化与Hash Trick这篇文章中,我们将下面4个短文本做了词频统计:corpus=["I come to China to travel", "This is a car polupar in China",...

2019-03-15 09:54:11 1964

原创 目标检测结果在原图上的绘制-cv2、matplotlib、pil的比较

最近读了一些代码,不同的开源框架采用画图方式不一样,就学习了一下。目标检测普遍的正矩形(hbb)其实就是四边形的一个特例,以下的代码都是以绘制四边形的检测结果为例。opencvdef draw_box_cv(img, boxes, labels, scores): img = img + np.array([103.939, 116.779, 123.68]) boxes...

2019-03-15 09:52:03 739

原创 Parquet列式存储格式

Apache Parquet是Hadoop生态系统中的列式存储格式,面向分析型业务,与数据处理框架、数据模型、编程语言无关。● 优势降低存储空间:按列存,能够更好地压缩数据,因为一列的数据一般都是同质的(homogenous)提高IO效率:扫描(遍历/scan)的时候,可以只读其中部分列. 而且由于数据压缩的更好的缘故,IO所需带宽也会减小降低上层应用延迟查询引擎: Hive, Im...

2019-03-14 21:05:20 279

原创 csv、parquet、orc读写性能和方式

背景最近在做一个大数据分析平台的项目,项目开发过程中使用spark来计算工作流工程中的每一个计算步骤,多个spark submit计算提交,构成了一个工作流程的计算。其中使用csv来作为多个计算步骤之间的中间结果存储文件,但是csv作为毫无压缩的文本存储方式显然有些性能不够,所以想要寻找一个存储文件效率更高或者执行效率更高的文件格式作为替代品。存储方式csv...

2019-03-14 20:55:26 741

原创 读写parquet格式文件的几种方式

摘要本文将介绍常用parquet文件读写的几种方式1.用spark的hadoopFile api读取hive中的parquet格式文件2.用sparkSql读写hive中的parquet格式3.用新旧MapReduce读写parquet格式文件读parquet文件首先创建hive表,数据用tab分隔create table test(name string,age int...

2019-03-14 20:40:52 6893

原创 【DeepLearning】PyTorch 如何自定义损失函数(Loss Function)?

文章目录1. 直接利用torch.Tensor提供的接口2. 利用PyTorch的numpy/scipy扩展3. 写一个PyTorch的C扩展1. 直接利用torch.Tensor提供的接口因为只是需要自定义loss,而loss可以看做对一个或多个Tensor的混合计算,比如计算一个三元组的Loss(Triplet Loss),我们只需要如下操作:(假设输入的三个(anchor, pos...

2019-03-14 10:44:47 1107

原创 linux,shell输入反斜杠显示'W'。

linux,shell输入反斜杠显示'W'。solution:字体必须为"Courier New"。

2019-03-14 10:00:05 1733

Flink1.11中文文档

Flink1.11中文文档

2021-01-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除