飞-舟-CSDN博客

转载 LSTM变种比较

LSTM简介LSTM(Long Short Term Memory)是在标准RNN基础上改进而来的一种网络结构，其出现的主要作用是为了解决标准RNN训练过程中的梯度消失问题，LSTM的结构如下图所示。因此其可以处理时间间隔和延迟较长的序列问题，近年来在语音识别，机器翻译，OCR等领域得到了广泛的应用并取得了比较可观的效果。相比于标准RNN模型，LSTM主要是增加了三个控制门单元：遗忘门

2018-04-15 14:54:46 13506 1

Hadoop的成功固然是由于其顺应了新世纪以来互联网技术的发展趋势，同时其基于JVM的平台开发也为Hadoop的快速发展起到了促进作用。Hadoop生态圈的项目大都基于Java，Scala，Clojure等JVM语言开发，这些语言良好的语法规范，丰富的第三方类库以及完善的工具支持，为Hadoop这样的超大型项目提供了基础支撑。同时，作为在程序员中普及率的语言之一，它也降低了更多程序员使用，或是参与...

2018-04-10 11:55:12 1165

转载 XGBoost gridcv（learning_rate and n_estimators）

程序# XGBoost on Otto dataset, Tune learning_rate and n_estimatorsfrom pandas import read_csvfrom xgboost import XGBClassifierfrom sklearn.model_selection import GridSearchCVfrom sklearn.model_sel

2018-03-26 09:53:17 1645

转载 Spark调优

性能调优分类常规性能调优：分配资源、并行度等等方式。JVM 调优（Java虚拟机）：JVM相关的参数。通常情况下，如果你的硬件配置、基础的 JVM 的配置都 ok 的话，JVM 通常不会造成太严重的性能问题，反而更多的是在 troubleshooting 中 JVM 占了很重要的地位， JVM 造成线上的 spark 作业的运行报错，甚至失败（比如OOM）。shuffle 调优（相当重要，但1.2...

2018-03-04 09:03:02 327

原创 xgboost优化方法总结

一、论文中的优化方法二、工具包中的优化参数

2018-02-10 10:50:48 2231

原创 xgboost

2018-02-10 08:31:51 372

转载损失函数

目录：一、0-1损失函数二、平方损失函数（Square Loss）：主要是最小二乘法（OLS）中；三、绝对值损失函数四、对数损失函数（Cross Entropy Loss，Softmax Loss ）：用于Logistic 回归与Softmax 分类中；五、指数损失函数（Exponential Loss）：主要用于Adaboost 集成学习算法中；六、铰链损失函数（Hinge Loss）：...

2018-02-08 18:39:30 27909 1

转载开窗函数

一、什么是开窗函数，开窗函数有什么作用，特征是什么？所谓开窗函数就是定义一个行为列，简单讲，就是在你查询的结果上，直接多出一列值（可以是聚合值或是排序号），特征就是带有over（）。二、开窗函数分类根据使用的目的，开窗函数可以分为两类：聚合开窗函数和排序开窗函数。下面主要解析四种常用的排序开窗函数: 1、ROW_NUM

2018-01-25 10:10:12 18894

转载 Spark 数据倾斜调优

调优概述有的时候，我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜，此时Spark作业的性能会比期望差很多。数据倾斜调优，就是使用各种技术方案解决不同类型的数据倾斜问题，以保证Spark作业的性能。数据倾斜发生时的现象　　1、绝大多数task执行得都非常快，但个别task执行极慢。比如，总共有1000个task，997个task都在1分钟之内执行完了，但是剩余两三

2018-01-06 15:31:48 237

转载 Spark SQL之Join优化

SparkSQL总体流程介绍在阐述Join实现之前，我们首先简单介绍SparkSQL的总体流程，一般地，我们有两种方式使用SparkSQL，一种是直接写sql语句，这个需要有元数据库支持，例如Hive等，另一种是通过Dataset/DataFrame编写Spark应用程序。如下图所示，sql语句被语法解析(SQL AST)成查询计划，或者我们通过Dataset/DataFrame提供的AP

2018-01-06 15:23:07 21024 2

转载 feature extraction之理解 LDA和PCA 的区别

降维的必要性1.多重共线性--预测变量之间相互关联。多重共线性会导致解空间的不稳定，从而可能导致结果的不连贯。2.高维空间本身具有稀疏性。一维正态分布有68%的值落于正负标准差之间，而在十维空间上只有0.02%。3.过多的变量会妨碍查找规律的建立。4.仅在变量层面上分析可能会忽略变量之间的潜在联系。例如几个预测变量可能落入仅反映数据某一方面特征的一个组内。

2018-01-02 09:25:56 506

原创 JDBC辅助组件（JDBCHelper.java）

以下代码包括的知识点有：单例，数据库连接池，inner (interface/class) 为executeQuery提供callback函数，PreparedStatement类（sql语句仅编译一次），executeBatch(减少网络传输次数)，package com.ibeifeng.sparkproject.jdbc;import java.s

2017-12-27 16:41:22 3226

原创 JAVA匿名内部类不能访问外部类方法中的局部变量，除非变量被声明为final类型

示例代码（外部类：TaskDAOImpl，匿名内部类对象：new JDBCHelper.QueryCallback()，其函数process中使用了外部类的局部变量task，final Task task = new Task();）public class TaskDAOImplimplements ITaskDAO {/*** 根据主键查询任务* @para

2017-12-23 09:33:21 1445

转载 JAVA（匿名）内部类应用（为弥补JAVA多继承的不足）

匿名内部类也就是没有名字的内部类正因为没有名字，所以匿名内部类只能使用一次，它通常用来简化代码编写但使用匿名内部类还有个前提条件：必须继承一个父类或实现一个接口实例1:不使用匿名内部类来实现抽象方法12345678910111213

2017-12-19 20:08:08 440

转载 JAVA单例模式（用于表示线程池、数据库连接池、打印池等系统唯一性资源）

什么是单例类？　　1、单例类只能有一个实例。　　2、单例类必须自己创建自己的唯一实例。　　3、单例类必须给所有其他对象提供这一实例。单例类的应用场景？　　单例模式确保某个类只有一个实例，而且自行实例化并向整个系统提供这个实例。在计算机系统中，线程池、缓存、日志对象、对话框、打印机、显卡的驱动程序对象常被设计成单例。这些应用都或多或少具有资源管理器的功能。每台计算机可以有若干个打

2017-12-19 19:40:18 2814

原创 java数据库操作（增删改查CRUD）

首先说明，在实际生产环境中，以下所介绍的技术可以借用一些开源框架实现，例如spring，mybatis等。一、1、什么是JDBC? Java语言访问数据库的一种规范,是一套API。二、preparedstatement（生产环境用preparedstatement，仅测试时使用statement）1) PreparedStatement可以写动态参数化的查询

2017-12-17 20:34:01 757

原创 Java多线程

一、线程的状态：new新建、runnable可运行、blocked阻塞、running运行、dead结束，转换如下：二、实现线程类1、extends Thread类public class TestThread extends Thread{ public TestThread(String name) { super(name);

2017-12-17 20:29:52 163

转载 Spark RDD 与 Pandas Dataframe

pyspark.sql.DataFrame在Spark中，DataFrame是一个以命名列方式组织的分布式数据集，等同于关系型数据库中的一个表，也相当于R/Python中的data frames（但是进行了更多的优化）。DataFrames可以由结构化数据文件转换而来，也可以从Hive中的表得来，以及可以转换自外部数据库或现有的RDD。import pandasPandas

2017-12-05 15:41:27 1529

原创数据预处理之scaling

sklearn 提供了多种特征scale方法，from sklearn.preprocessing import MinMaxScalerfrom sklearn.preprocessing import minmax_scalefrom sklearn.preprocessing import MaxAbsScalerfrom sklearn.preprocessing import

2017-12-04 23:15:55 11428

原创数据分类流程（以titanic分类为例）

一、流程（实际中，以下流程中各个环节可能是循环往复的）以下数据为例trn_df = pd.read_csv("./train.csv")tst_df = pd.read_csv("./test.csv")1、观察数据（以下对特征和类的变换，要用在trn和tst上，切忌只操作trn）（1）概览（有多少特征，每种特征类型，类别数，缺失情况）trn_df.info()

2017-12-04 22:36:53 897

转载从机器学习算法的发展理解端到端（end to end）学习

经典机器学习方式是以人类的先验知识将raw数据预处理成feature，然后对feature进行分类。分类结果十分取决于feature的好坏。所以过去的机器学习专家将大部分时间花费在设计feature上。那时的机器学习有个更合适的名字叫feature engineering 。后来人们发现，利用神经网络，让网络自己学习如何抓取feature效果更佳。于是兴起了representation lear

2017-11-09 17:15:22 5688

转载 mysql中的本文存储（varchar char text blob）

在 MySQL5.0以上的版本中，varchar数据类型的长度支持到了65535，也就是说可以存放65532个字节的数据，起始位和结束位占去了3个字节。字符类型若为gbk，每个字符最多占2个字节，最大长度不能超过32766;字符类型若为utf8，每个字符最多占3个字节，最大长度不能超过21845。若定义的时候超过上述限制，则varchar字段会被强行转为text类

2017-10-30 16:56:12 3215

转载初识图数据库

为什么选择图形数据库，为什么选择Neo4j？最近在抓取一些社交网站的数据，抓下来的数据用MySql存储。问我为什么用MySql，那自然是入门简单，并且我当时只熟悉MySql。可是，随着数据量越来越大，有一个问题始终困扰着我，那就是社交关系的存储。就以新浪微博举例，一个大V少则十几万，多则几千万的粉丝，这些关注关系要怎么存呢？在MySql中，一条关注关系（大V id，大V的一

2017-10-26 14:22:57 400

原创 linux 交换分区

1、为何mem很多，swap却慢了？根据linux内存管理方法，在两种情况下，swap会被使用：1.1 mem使用比例超过一定阈值时；（比例的设置通过sysctl vm.swappiness=** 设置；或修改/proc/sys/vm/swappiness）1.2 page调度算法：当某些mem中的page长时间不用，即使mem还有很多空间，仍会被换出到swap。2、怎么设

2017-10-14 09:29:33 260

转载 Linux 在一个命令行上执行多个命令

转自：http://www.cnblogs.com/emanlee/p/4886948.htmlLinux 在一个命令行上执行多个命令1. [ ; ]如果被分号(;)所分隔的命令会连续的执行下去，就算是错误的命令也会继续执行后面的命令。2. [ && ]如果命令被 && 所分隔，那么命令也会一直执行下去，但是中间有错误的命令存在就不会执行后面的命令，没错就直

2017-10-02 15:17:27 364

原创配置都对，jps查看datanode没有启动，为什么

在安装Hadoop过程中进行jps指令后一直没有发现DataNode，最后发现是因为多次格式化namenode所致，执行hdfs文件系统格式化时，会在namenode数据文件夹（即配置文件中dfs.name.dir在本地系统的路径）中保存一个current/VERSION文件，记录namespaceID，标识了所格式化的 namenode的版本。如果频繁的格式化namenode，那么datan

2017-10-02 15:13:48 1902

原创 python小程序：把名称列表从csv文件读入mongo，再从mongo导入redis（anaconda3.5.2）

#/usr/bin/env pythonimport redisimport csvimport pymongodef readDictCSV(fileName="E:\\comp.csv", keyIndex=2):with open(fileName, 'U') as csvfile:reader = csv.reader(csvfile)#

2017-10-01 15:35:03 556

原创 python小程序：以后台服务方式定时监视redis队列（anaconda3.5.2）

#!/usr/bin/env pythonimport datetime, threading, redisinterval = 60*60def chkRedis(): global interval now=datetime.datetime.now()pool=redis.ConnectionPool(host='10.0.0.9', port

2017-10-01 15:33:13 914

原创 RAW（裸）与 QCOW2（写时复制）的区别

qemu-img是QEMU的磁盘管理工具，在qemu-kvm源码编译后就会默认编译好qemu-img这个二进制文件。qemu-img也是QEMU/KVM使用过程中一个比较重要的工具，可以用其创建两种格式（raw和qcow2）的虚拟机磁盘。1、两种磁盘的区别raw 启动的虚拟机会比 QCOW2 启动的虚拟机 I/O 效率更高一些(25%)qcow2是一种当下比较主流的虚拟化磁盘格式，具有

2017-09-27 10:00:43 10870

转载文本文件与其他二进制文件的区别

首先，计算机中所有存储的信息都是二进制代码。文本文件是一种二进制文件，因为它与其他二进制文件相比较为特殊，所以有了这个“区别”问题，即fopen时参数指定为w和wb的区别。广义上的二进制文件包括文本文件，这里讨论的是狭义上的二进制文件与文本文件的比较：1. 能存储的数据类型不同文本文件只能存储char型字符变量。二进制文件可以存储char/int/short/lon

2017-09-26 16:19:31 218

原创关系数据库中的概念

一、为什么要有视图？视图与表的关系？table是事先定义好的，view是呈现给用户的。若想呈现的方式与table设计不一样，又不想重新建table，则create view as......。view创建自table或view。table改变，相关view随之改变。二、存储过程类似于functionCREATE OR REPLACE FUNCTION totalReco

2017-09-23 22:03:14 542

原创 centos7安装指定版本的docker

安装docker、配置国内源加速一、官网下载docker-ce-17.06.2.ce-1.el7.centos.x86_64.rpmyum -y install docker-ce-17.06.2.ce-1.el7.centos.x86_64.rpm（若系统自带docker，可在安装之前通过yum remove docker删除）二、设置docker开机自启动syste

2017-09-23 15:25:12 1946

原创在centos7上安装kvm，用virsh 管理

一、安装kvm及其相关组件1. 验证CPU是否支持KVM；如果结果中有vmx（Intel）或svm(AMD)字样，就说明CPU的支持的。egrep '(vmx|svm)' /proc/cpuinfo2. 关闭SELinux，将 /etc/sysconfig/selinux 中的 SELinux=enforcing 修改为 SELinux=disabled

2017-09-20 19:02:26 10173

转载什么场景该用 MongoDB?

案例1用在应用服务器的日志记录，查找起来比文本灵活，导出也很方便。也是给应用练手，从外围系统开始使用MongoDB。用在一些第三方信息的获取或者抓取，因为MongoDB的schema-less，所有格式灵活，不用为了各种格式不一样的信息专门设计统一的格式，极大的减少开发的工作。案例2mongodb之前有用过，主要用来存储一些监控数据，No schema 对开发人

2017-09-14 20:01:33 243

转载由于GIL，Python想做多任务，最好在多核上用多进程方式实现

1、GIL是什么？GIL的全称是Global Interpreter Lock(全局解释器锁)，来源是python设计之初的考虑，为了数据安全所做的决定。2、每个CPU在同一时间只能执行一个线程（在单核CPU下的多线程其实都只是并发，不是并行，并发和并行从宏观上来讲都是同时处理多路请求的概念。但并发和并行又有区别，并行是指两个或者多个事件在同一时刻发生；而并发是指两个或多个事件在同一时间间隔内

2017-09-10 18:17:40 410

转载 ssh 原理

主要内容1. 初见SSHSSH是一种协议标准，其目的是实现安全远程登录以及其它安全网络服务。SSH仅仅是一协议标准，其具体的实现有很多，既有开源实现的OpenSSH，也有商业实现方案。使用范围最广泛的当然是开源实现OpenSSH。2. SSH工作原理在讨论SSH的原理和使用前，我们需要分析一个问题：为什么需要SSH？从1.1节SSH的定义中可以看出，SSH和te

2017-07-15 17:48:26 342

转载关于cap理论

CAP原则又称CAP定理，指的是在一个分布式系统中， Consistency（一致性）、 Availability（可用性）、Partition tolerance（分区容错性），三者不可得兼。一致性（C）：在分布式系统中的所有数据备份，在同一时刻是否同样的值。（等同于所有节点访问同一份最新的数据副本）可用性（A）：在集群中一部分节点故障后，集群整体是否还能响应客户端的读写请求。（对数据更

2017-05-17 09:50:56 368

转载代理与反向代理

正向代理中，proxy和client同属一个LAN，对server透明；反向代理中，proxy和server同属一个LAN，对client透明。代理的用途正向代理中，proxy和client同属一个LAN，对server透明；反向代理中，proxy和server同属一个LAN，对client透明。正向代理代理的对象是客户端，反向代理代理的对象是服务端。代理用

2017-05-17 09:31:02 249

转载 hbase系统架构

一、Hbase简介HBase是一个开源的非关系型分布式数据库（NoSQL），它参考了谷歌的BigTable建模，实现的编程语言为 Java。它是Apache软件基金会的Hadoop项目的一部分，运行于HDFS文件系统之上，为 Hadoop 提供类似于BigTable 规模的服务。因此，它可以容错地存储海量稀疏的数据。HBase在列上实现了BigTable论文提到的压缩算法、内存操作和布

2017-05-14 15:23:32 406

转载什么是回调函数？

作者：桥头堡链接：https://www.zhihu.com/question/19801131/answer/27459821来源：知乎著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。我们绕点远路来回答这个问题。编程分为两类：系统编程（system programming）和应用编程（application programming）。所谓系

2017-05-13 17:15:17 202

空空如也

空空如也