自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(51)
  • 收藏
  • 关注

转载 LSTM变种比较

LSTM简介LSTM(Long Short Term Memory)是在标准RNN基础上改进而来的一种网络结构,其出现的主要作用是为了解决标准RNN训练过程中的梯度消失问题,LSTM的结构如下图所示。因此其可以处理时间间隔和延迟较长的序列问题,近年来在语音识别,机器翻译,OCR等领域得到了广泛的应用并取得了比较可观的效果。相比于标准RNN模型,LSTM主要是增加了三个控制门单元:遗忘门

2018-04-15 14:54:46 13235 1

转载 JVM为大数据圈带来的问题 & 解决方法

Hadoop的成功固然是由于其顺应了新世纪以来互联网技术的发展趋势,同时其基于JVM的平台开发也为Hadoop的快速发展起到了促进作用。Hadoop生态圈的项目大都基于Java,Scala,Clojure等JVM语言开发,这些语言良好的语法规范,丰富的第三方类库以及完善的工具支持,为Hadoop这样的超大型项目提供了基础支撑。同时,作为在程序员中普及率的语言之一,它也降低了更多程序员使用,或是参与...

2018-04-10 11:55:12 1097

转载 XGBoost gridcv(learning_rate and n_estimators)

程序# XGBoost on Otto dataset, Tune learning_rate and n_estimatorsfrom pandas import read_csvfrom xgboost import XGBClassifierfrom sklearn.model_selection import GridSearchCVfrom sklearn.model_sel

2018-03-26 09:53:17 1564

转载 Spark调优

性能调优分类常规性能调优:分配资源、并行度等等方式。JVM 调优(Java虚拟机):JVM相关的参数。通常情况下,如果你的硬件配置、基础的 JVM 的配置都 ok 的话,JVM 通常不会造成太严重的性能问题,反而更多的是在 troubleshooting 中 JVM 占了很重要的地位, JVM 造成线上的 spark 作业的运行报错,甚至失败(比如OOM)。shuffle 调优(相当重要,但1.2...

2018-03-04 09:03:02 286

原创 xgboost优化方法总结

一、论文中的优化方法二、工具包中的优化参数

2018-02-10 10:50:48 2045

原创 xgboost

2018-02-10 08:31:51 311

转载 损失函数

目录:一、0-1损失函数二、平方损失函数(Square Loss):主要是最小二乘法(OLS)中; 三、绝对值损失函数四、对数损失函数(Cross Entropy Loss,Softmax Loss ):用于Logistic 回归与Softmax 分类中; 五、指数损失函数(Exponential Loss) :主要用于Adaboost 集成学习算法中; 六、铰链损失函数(Hinge Loss):...

2018-02-08 18:39:30 27473 1

转载 开窗函数

一 、什么是开窗函数,开窗函数有什么作用,特征是什么?     所谓开窗函数就是定义一个行为列,简单讲,就是在你查询的结果上,直接多出一列值(可以是聚合值或是排序号),特征就是带有over()。二、开窗函数分类     根据使用的目的,开窗函数可以分为两类:聚合开窗函数和排序开窗函数。    下面主要解析四种常用的排序开窗函数:      1、ROW_NUM

2018-01-25 10:10:12 18585

转载 Spark 数据倾斜调优

调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能。数据倾斜发生时的现象  1、绝大多数task执行得都非常快,但个别task执行极慢。比如,总共有1000个task,997个task都在1分钟之内执行完了,但是剩余两三

2018-01-06 15:31:48 195

转载 Spark SQL之Join优化

SparkSQL总体流程介绍在阐述Join实现之前,我们首先简单介绍SparkSQL的总体流程,一般地,我们有两种方式使用SparkSQL,一种是直接写sql语句,这个需要有元数据库支持,例如Hive等,另一种是通过Dataset/DataFrame编写Spark应用程序。如下图所示,sql语句被语法解析(SQL AST)成查询计划,或者我们通过Dataset/DataFrame提供的AP

2018-01-06 15:23:07 20836 2

转载 feature extraction之 理解 LDA和PCA 的区别

降维的必要性1.多重共线性--预测变量之间相互关联。多重共线性会导致解空间的不稳定,从而可能导致结果的不连贯。2.高维空间本身具有稀疏性。一维正态分布有68%的值落于正负标准差之间,而在十维空间上只有0.02%。3.过多的变量会妨碍查找规律的建立。4.仅在变量层面上分析可能会忽略变量之间的潜在联系。例如几个预测变量可能落入仅反映数据某一方面特征的一个组内。

2018-01-02 09:25:56 458

原创 JDBC辅助组件(JDBCHelper.java)

以下代码包括的知识点有:单例,数据库连接池,inner (interface/class) 为executeQuery提供callback函数,PreparedStatement类(sql语句仅编译一次),executeBatch(减少网络传输次数),package com.ibeifeng.sparkproject.jdbc;import java.s

2017-12-27 16:41:22 3132

原创 JAVA匿名内部类不能访问外部类方法中的局部变量,除非变量被声明为final类型

示例代码(外部类:TaskDAOImpl,匿名内部类对象:new JDBCHelper.QueryCallback(),其函数process中使用了外部类的局部变量task,final Task task = new Task();)public class TaskDAOImplimplements ITaskDAO {/*** 根据主键查询任务* @para

2017-12-23 09:33:21 1364

转载 JAVA(匿名)内部类应用(为弥补JAVA多继承的不足)

匿名内部类也就是没有名字的内部类正因为没有名字,所以匿名内部类只能使用一次,它通常用来简化代码编写但使用匿名内部类还有个前提条件:必须继承一个父类或实现一个接口 实例1:不使用匿名内部类来实现抽象方法12345678910111213

2017-12-19 20:08:08 414

转载 JAVA单例模式(用于表示 线程池、数据库连接池、打印池等系统唯一性资源)

什么是单例类?  1、单例类只能有一个实例。  2、单例类必须自己创建自己的唯一实例。  3、单例类必须给所有其他对象提供这一实例。单例类的应用场景?  单例模式确保某个类只有一个实例,而且自行实例化并向整个系统提供这个实例。在计算机系统中,线程池、缓存、日志对象、对话框、打印机、显卡的驱动程序对象常被设计成单例。这些应用都或多或少具有资源管理器的功能。每台计算机可以有若干个打

2017-12-19 19:40:18 2755

原创 java数据库操作(增删改查CRUD)

首先说明,在实际生产环境中,以下所介绍的技术可以借用一些开源框架实现,例如spring,mybatis等。一、1、什么是JDBC? Java语言访问数据库的一种规范,是一套API。二、preparedstatement(生产环境用preparedstatement,仅测试时使用statement)1) PreparedStatement可以写动态参数化的查询

2017-12-17 20:34:01 701

原创 Java多线程

一、线程的状态:new新建、runnable可运行、blocked阻塞、running运行、dead结束,转换如下:二、实现线程类1、extends Thread类public class TestThread extends Thread{     public TestThread(String name) {         super(name); 

2017-12-17 20:29:52 137

转载 Spark RDD 与 Pandas Dataframe

pyspark.sql.DataFrame在Spark中,DataFrame是一个以命名列方式组织的分布式数据集,等同于关系型数据库中的一个表,也相当于R/Python中的data frames(但是进行了更多的优化)。DataFrames可以由结构化数据文件转换而来,也可以从Hive中的表得来,以及可以转换自外部数据库或现有的RDD。import pandasPandas

2017-12-05 15:41:27 1489

原创 数据预处理之scaling

sklearn 提供了多种特征scale方法,from sklearn.preprocessing import MinMaxScalerfrom sklearn.preprocessing import minmax_scalefrom sklearn.preprocessing import MaxAbsScalerfrom sklearn.preprocessing import

2017-12-04 23:15:55 11196

原创 数据分类流程(以titanic分类为例)

一、流程(实际中,以下流程中各个环节可能是循环往复的)以下数据为例trn_df = pd.read_csv("./train.csv")tst_df = pd.read_csv("./test.csv")1、观察数据(以下对特征和类的变换,要用在trn和tst上,切忌只操作trn)(1)概览(有多少特征,每种特征类型,类别数,缺失情况)trn_df.info()

2017-12-04 22:36:53 822

转载 从机器学习算法的发展 理解 端到端(end to end)学习

经典机器学习方式是以人类的先验知识将raw数据预处理成feature,然后对feature进行分类。分类结果十分取决于feature的好坏。所以过去的机器学习专家将大部分时间花费在设计feature上。那时的机器学习有个更合适的名字叫feature engineering 。 后来人们发现,利用神经网络,让网络自己学习如何抓取feature效果更佳。于是兴起了representation lear

2017-11-09 17:15:22 5522

转载 mysql中的本文存储(varchar char text blob)

在 MySQL5.0以上的版本中,varchar数据类型的长度支持到了65535,也就是说可以存放65532个字节的数据,起始位和结束位占去了3个字 节。字符类型若为gbk,每个字符最多占2个字节,最大长度不能超过32766;字符类型若为utf8,每个字符最多占3个字节,最大长度不能超过21845。若定义的时候超过上述限制,则varchar字段会被强行转为text类

2017-10-30 16:56:12 3138

转载 初识图数据库

为什么选择图形数据库,为什么选择Neo4j?最近在抓取一些社交网站的数据,抓下来的数据用MySql存储。问我为什么用MySql,那自然是入门简单,并且我当时只熟悉MySql。可是,随着数据量越来越大,有一个问题始终困扰着我,那就是社交关系的存储。就以新浪微博举例,一个大V少则十几万,多则几千万的粉丝,这些关注关系要怎么存呢?在MySql中,一条关注关系(大V id,大V的一

2017-10-26 14:22:57 368

原创 linux 交换分区

1、为何mem很多,swap却慢了?根据linux内存管理方法,在两种情况下,swap会被使用:1.1 mem使用比例超过一定阈值时;(比例的设置通过sysctl vm.swappiness=** 设置;或修改/proc/sys/vm/swappiness)1.2 page调度算法:当某些mem中的page长时间不用,即使mem还有很多空间,仍会被换出到swap。2、怎么设

2017-10-14 09:29:33 229

转载 Linux 在一个命令行上执行多个命令

转自:http://www.cnblogs.com/emanlee/p/4886948.htmlLinux 在一个命令行上执行多个命令1. [ ; ]如果被分号(;)所分隔的命令会连续的执行下去,就算是错误的命令也会继续执行后面的命令。2. [ && ]如果命令被 && 所分隔,那么命令也会一直执行下去,但是中间有错误的命令存在就不会执行后面的命令,没错就直

2017-10-02 15:17:27 336

原创 配置都对,jps查看datanode没有启动,为什么

在安装Hadoop过程中进行jps指令后一直没有发现DataNode,最后发现是因为多次格式化namenode所致,执行hdfs文件系统格式化时,会在namenode数据文件夹(即配置文件中dfs.name.dir在本地系统的路径)中保存一个current/VERSION文件,记录namespaceID,标识了所格式化的 namenode的版本。如果频繁的格式化namenode,那么datan

2017-10-02 15:13:48 1856

原创 python小程序:把名称列表从csv文件读入mongo,再从mongo导入redis(anaconda3.5.2)

#/usr/bin/env pythonimport redisimport csvimport pymongodef readDictCSV(fileName="E:\\comp.csv", keyIndex=2):with open(fileName, 'U') as csvfile:reader = csv.reader(csvfile)#

2017-10-01 15:35:03 518

原创 python小程序:以后台服务方式 定时 监视redis队列 (anaconda3.5.2)

#!/usr/bin/env pythonimport datetime, threading, redisinterval = 60*60def chkRedis(): global interval now=datetime.datetime.now()pool=redis.ConnectionPool(host='10.0.0.9', port

2017-10-01 15:33:13 867

原创 RAW(裸) 与 QCOW2(写时复制) 的区别

qemu-img是QEMU的磁盘管理工具,在qemu-kvm源码编译后就会默认编译好qemu-img这个二进制文件。qemu-img也是QEMU/KVM使用过程中一个比较重要的工具,可以用其创建两种格式(raw和qcow2)的虚拟机磁盘。1、两种磁盘的区别raw 启动的虚拟机会比 QCOW2 启动的虚拟机 I/O 效率更高一些(25%)qcow2是一种当下比较主流的虚拟化磁盘格式,具有

2017-09-27 10:00:43 10527

转载 文本文件与其他二进制文件的区别

首先,计算机中所有存储的信息都是二进制代码。文本文件是一种二进制文件,因为它与其他二进制文件相比较为特殊,所以有了这个“区别”问题,即fopen时参数指定为w和wb的区别。广义上的二进制文件包括文本文件,这里讨论的是狭义上的二进制文件与文本文件的比较:1. 能存储的数据类型不同     文本文件只能存储char型字符变量。     二进制文件可以存储char/int/short/lon

2017-09-26 16:19:31 191

原创 关系数据库中的概念

一、为什么要有视图?视图与表的关系?table是事先定义好的,view是呈现给用户的。若想呈现的方式与table设计不一样,又不想重新建table,则create view as......。view创建自table或view。table改变,相关view随之改变。二、存储过程类似于functionCREATE OR REPLACE FUNCTION totalReco

2017-09-23 22:03:14 503

原创 centos7安装指定版本的docker

安装docker、配置国内源加速一、官网下载docker-ce-17.06.2.ce-1.el7.centos.x86_64.rpmyum -y install docker-ce-17.06.2.ce-1.el7.centos.x86_64.rpm(若系统自带docker,可在安装之前通过yum remove docker删除)二、设置docker开机自启动syste

2017-09-23 15:25:12 1880

原创 在centos7上安装kvm,用virsh 管理

一、安装kvm及其相关组件1. 验证CPU是否支持KVM;如果结果中有vmx(Intel)或svm(AMD)字样,就说明CPU的支持的。egrep '(vmx|svm)' /proc/cpuinfo2. 关闭SELinux,将 /etc/sysconfig/selinux 中的 SELinux=enforcing 修改为 SELinux=disabled

2017-09-20 19:02:26 9596

转载 什么场景该用 MongoDB?

案例1用在应用服务器的日志记录,查找起来比文本灵活,导出也很方便。也是给应用练手,从外围系统开始使用MongoDB。用在一些第三方信息的获取或者抓取,因为MongoDB的schema-less,所有格式灵活,不用为了各种格式不一样的信息专门设计统一的格式,极大的减少开发的工作。案例2mongodb之前有用过,主要用来存储一些监控数据,No schema 对开发人

2017-09-14 20:01:33 214

转载 由于GIL,Python想做多任务,最好在多核上用多进程方式实现

1、GIL是什么?GIL的全称是Global Interpreter Lock(全局解释器锁),来源是python设计之初的考虑,为了数据安全所做的决定。2、每个CPU在同一时间只能执行一个线程(在单核CPU下的多线程其实都只是并发,不是并行,并发和并行从宏观上来讲都是同时处理多路请求的概念。但并发和并行又有区别,并行是指两个或者多个事件在同一时刻发生;而并发是指两个或多个事件在同一时间间隔内

2017-09-10 18:17:40 378

转载 ssh 原理

主要内容1. 初见SSHSSH是一种协议标准,其目的是实现安全远程登录以及其它安全网络服务。SSH仅仅是一协议标准,其具体的实现有很多,既有开源实现的OpenSSH,也有商业实现方案。使用范围最广泛的当然是开源实现OpenSSH。2. SSH工作原理在讨论SSH的原理和使用前,我们需要分析一个问题:为什么需要SSH?从1.1节SSH的定义中可以看出,SSH和te

2017-07-15 17:48:26 291

转载 关于cap理论

CAP原则又称CAP定理,指的是在一个分布式系统中, Consistency(一致性)、 Availability(可用性)、Partition tolerance(分区容错性),三者不可得兼。一致性(C):在分布式系统中的所有数据备份,在同一时刻是否同样的值。(等同于所有节点访问同一份最新的数据副本)可用性(A):在集群中一部分节点故障后,集群整体是否还能响应客户端的读写请求。(对数据更

2017-05-17 09:50:56 325

转载 代理与反向代理

正向代理中,proxy和client同属一个LAN,对server透明;反向代理中,proxy和server同属一个LAN,对client透明。代理的用途正向代理中,proxy和client同属一个LAN,对server透明;反向代理中,proxy和server同属一个LAN,对client透明。正向代理代理的对象是客户端,反向代理代理的对象是服务端。代理用

2017-05-17 09:31:02 224

转载 hbase系统架构

一、Hbase简介HBase是一个开源的非关系型分布式数据库(NoSQL),它参考了谷歌的BigTable建模,实现的编程语言为 Java。它是Apache软件基金会的Hadoop项目的一部分,运行于HDFS文件系统之上,为 Hadoop 提供类似于BigTable 规模的服务。因此,它可以容错地存储海量稀疏的数据。HBase在列上实现了BigTable论文提到的压缩算法、内存操作和布

2017-05-14 15:23:32 372

转载 什么是回调函数?

作者:桥头堡链接:https://www.zhihu.com/question/19801131/answer/27459821来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。我们绕点远路来回答这个问题。编程分为两类:系统编程(system programming)和应用编程(application programming)。所谓系

2017-05-13 17:15:17 176

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除