LSTM变种比较

LSTM简介 LSTM(Long Short Term Memory)是在标准RNN基础上改进而来的一种网络结构,其出现的主要作用是为了解决标准RNN训练过程中的梯度消失问题,LSTM的结构如下图所示。因此其可以处理时间间隔和延迟较长的序列问题,近年来在语音识别,机器翻译,OCR等领域得到了...

2018-04-15 14:54:46

阅读数 4988

评论数 0

JVM为大数据圈带来的问题 & 解决方法

Hadoop的成功固然是由于其顺应了新世纪以来互联网技术的发展趋势,同时其基于JVM的平台开发也为Hadoop的快速发展起到了促进作用。Hadoop生态圈的项目大都基于Java,Scala,Clojure等JVM语言开发,这些语言良好的语法规范,丰富的第三方类库以及完善的工具支持,为Hadoop这...

2018-04-10 11:55:12

阅读数 354

评论数 0

XGBoost gridcv(learning_rate and n_estimators)

程序 # XGBoost on Otto dataset, Tune learning_rate and n_estimators from pandas import read_csv from xgboost import XGBClassifier from sklearn.model_s...

2018-03-26 09:53:17

阅读数 523

评论数 0

Spark调优

性能调优分类常规性能调优:分配资源、并行度等等方式。JVM 调优(Java虚拟机):JVM相关的参数。通常情况下,如果你的硬件配置、基础的 JVM 的配置都 ok 的话,JVM 通常不会造成太严重的性能问题,反而更多的是在 troubleshooting 中 JVM 占了很重要的地位, JVM 造...

2018-03-04 09:03:02

阅读数 109

评论数 0

xgboost优化方法总结

一、论文中的优化方法二、工具包中的优化参数

2018-02-10 10:50:48

阅读数 503

评论数 0

xgboost

2018-02-10 08:31:51

阅读数 87

评论数 0

损失函数

目录:一、0-1损失函数二、平方损失函数(Square Loss):主要是最小二乘法(OLS)中; 三、绝对值损失函数四、对数损失函数(Cross Entropy Loss,Softmax Loss ):用于Logistic 回归与Softmax 分类中; 五、指数损失函数(Exponential...

2018-02-08 18:39:30

阅读数 14282

评论数 0

开窗函数

一 、什么是开窗函数,开窗函数有什么作用,特征是什么?      所谓开窗函数就是定义一个行为列,简单讲,就是在你查询的结果上,直接多出一列值(可以是聚合值或是排序号),特征就是带有over()。 二、开窗函数分类      根据使用的目的,开窗函数可以分为两类:聚合开窗函数和排...

2018-01-25 10:10:12

阅读数 1524

评论数 0

Spark 数据倾斜调优

调优概述 有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能。 数据倾斜发生时的现象   1、绝大多数task执行得都非常快,但个别...

2018-01-06 15:31:48

阅读数 82

评论数 0

Spark SQL之Join优化

SparkSQL总体流程介绍 在阐述Join实现之前,我们首先简单介绍SparkSQL的总体流程,一般地,我们有两种方式使用SparkSQL,一种是直接写sql语句,这个需要有元数据库支持,例如Hive等,另一种是通过Dataset/DataFrame编写Spark应用程序。如下图所示,sq...

2018-01-06 15:23:07

阅读数 6802

评论数 0

feature extraction之 理解 LDA和PCA 的区别

降维的必要性 1.多重共线性--预测变量之间相互关联。多重共线性会导致解空间的不稳定,从而可能导致结果的不连贯。 2.高维空间本身具有稀疏性。一维正态分布有68%的值落于正负标准差之间,而在十维空间上只有0.02%。 3.过多的变量会妨碍查找规律的建立。 4.仅在变量层...

2018-01-02 09:25:56

阅读数 167

评论数 0

JDBC辅助组件(JDBCHelper.java)

以下代码包括的知识点有: 单例, 数据库连接池, inner (interface/class) 为executeQuery提供callback函数, PreparedStatement类(sql语句仅编译一次), executeBatch(减少网络传输次数), package...

2017-12-27 16:41:22

阅读数 1133

评论数 0

JAVA匿名内部类不能访问外部类方法中的局部变量,除非变量被声明为final类型

示例代码(外部类:TaskDAOImpl,匿名内部类对象:new JDBCHelper.QueryCallback(),其函数process中使用了外部类的局部变量task,final Task task = new Task();) public class TaskDAOImpl ...

2017-12-23 09:33:21

阅读数 151

评论数 0

JAVA(匿名)内部类应用(为弥补JAVA多继承的不足)

匿名内部类也就是没有名字的内部类 正因为没有名字,所以匿名内部类只能使用一次,它通常用来简化代码编写 但使用匿名内部类还有个前提条件:必须继承一个父类或实现一个接口   实例1:不使用匿名内部类来实现抽象方法 1 2 3 ...

2017-12-19 20:08:08

阅读数 148

评论数 0

JAVA单例模式(用于表示 线程池、数据库连接池、打印池等系统唯一性资源)

什么是单例类?   1、单例类只能有一个实例。   2、单例类必须自己创建自己的唯一实例。   3、单例类必须给所有其他对象提供这一实例。 单例类的应用场景?   单例模式确保某个类只有一个实例,而且自行实例化并向整个系统提供这个实例。在计算机系统中,线程池、缓存、日志对象、对话框、打印...

2017-12-19 19:40:18

阅读数 1243

评论数 0

java数据库操作(增删改查CRUD)

首先说明,在实际生产环境中,以下所介绍的技术可以借用一些开源框架实现,例如spring,mybatis等。 一、1、什么是JDBC?  Java语言访问数据库的一种规范,是一套API。 二、preparedstatement(生产环境用preparedstatement,仅测试时使用s...

2017-12-17 20:34:01

阅读数 191

评论数 0

Java多线程

一、线程的状态:new新建、runnable可运行、blocked阻塞、running运行、dead结束,转换如下: 二、实现线程类 1、extends Thread类 public class TestThread extends Thread{      public ...

2017-12-17 20:29:52

阅读数 46

评论数 0

Spark RDD 与 Pandas Dataframe

pyspark.sql.DataFrame 在Spark中,DataFrame是一个以命名列方式组织的分布式数据集,等同于关系型数据库中的一个表,也相当于R/Python中的data frames(但是进行了更多的优化)。DataFrames可以由结构化数据文件转换而来,也可以从Hive中的表得...

2017-12-05 15:41:27

阅读数 561

评论数 0

数据预处理之scaling

sklearn 提供了多种特征scale方法, from sklearn.preprocessing import MinMaxScaler from sklearn.preprocessing import minmax_scale from sklearn.preprocessing impo...

2017-12-04 23:15:55

阅读数 1198

评论数 0

数据分类流程(以titanic分类为例)

一、流程(实际中,以下流程中各个环节可能是循环往复的) 以下数据为例 trn_df = pd.read_csv("./train.csv") tst_df = pd.read_csv("./test.csv") 1、观察数据(以下对特征和类的...

2017-12-04 22:36:53

阅读数 118

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭