Losteng-CSDN博客

原创学习GBDT+LR

最近看了facebook的Practical Lessons from Predicting Clicks on Ads at Facebook的这篇文章下面简单的介绍一下该算法：1.GBDT+LR 模型首先，该模型不算是新的模型了，在一些大公司的ctr的模型中已经使用了。如图就是该论文中提出的组合模型GBDT+LR，可以将GBDT看做是对特征一种组合编码的过程，最后的LR

2017-10-28 20:28:37 10626

原创 xgboost在win10 安装的we

最近在看xgboost的工具，需要在win10下安装，遇到一些问题，下面记录一下安装是遇到的问题。首先是官方网站的安装说明http://xgboost.readthedocs.io/en/latest/build.html但是在安装前需要安装编译的环境可以从下面的连接下载MinGW-w64 - for 32 and 64 bit Windowshttps

2017-07-21 00:05:27 1326

原创 mxnet的更新问题

最近关于caffe 和mxnet 都是在GitHub上的开源项目。经常会出现需要更新版本到本地，使用下面的命令来git最新的文件到本地重新编译git pull && git submodule update && make clean && make

2017-04-03 21:42:39 2532

原创 caffe训练时的一些错误记录

最近突然需要需要将之前的模型加载并进行训练，发现出错，就赶紧排查I0328 09:35:34.497181 6268 layer_factory.hpp:76] Creating layer dataI0328 09:35:34.509884 6268 net.cpp:106] Creating Layer dataI0328 09:35:34.511267 6268 net.c

2017-03-28 09:49:04 3724

转载 ROC和AUC介绍以及如何计算AUC

ROC（Receiver Operating Characteristic）曲线和AUC常被用来评价一个二值分类器（binary classifier）的优劣，对两者的简单介绍见这里。这篇博文简单介绍ROC和AUC的特点，以及更为深入地，讨论如何作出ROC曲线图以及计算AUC。ROC曲线需要提前说明的是，我们这里只讨论二值分类器。对于分类器，或者说分类算法，评价指标主要有preci

2017-02-24 10:14:26 2221

原创 maven的setting.xml配置文件详解

setting.xml配置文件maven的配置文件settings.xml存在于两个地方：1.安装的地方：${M2_HOME}/conf/settings.xml2.用户的目录：${user.home}/.m2/settings.xml前者又被叫做全局配置，对操作系统的所有使用者生效；后者被称为用户配置，只对当前操作系统的使用者生效。如果两者都存在，它们的内

2017-02-20 10:12:14 2802

原创 hadoop之HDFS的扩充

最近在vm中进行扩容之后考虑，openstack的容量添加，随之想起hdfs的容量扩充的问题，从网上查找资料之后，现总结如下：首先在服务器上大都使用的Linux的系统，实验上大都采用的是centos开源的项目。在Linux中添加硬盘时，需要考虑的是容量，但是随着硬件资源的扩展现在磁盘的容量可鞥会出现原有系统不能很好的进行先介绍2种分区表：　　MBR分区表：（MBR含义：主引导记录）

2016-12-04 16:49:32 7571

转载 Spark性能优化指南二——高级篇

1.如何判断发生数据倾斜？2.为什么会发生数据倾斜?3.如何定位导致数据倾斜的代码?4.Spark Web UI哪些参数可以反映数据倾斜？5.本文对于数据倾斜提出哪些解决方案？前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后，本文作为《Spark性能优化指南》的高级篇，将深入分析数据倾斜调优与shuffle调优，以解决更加棘手的性能

2016-11-27 20:34:08 1029

转载 RDD详解

1、RDD是什么？2、为什么产生RDD？3、RDD在spark是什么地位？4、RDD在spark说是什么作用？5、如何操作RDD？一、Spark RDD详解1、RDD是什么？RDD：Spark的核心概念是RDD (resilientdistributed dataset)，指的是一个只读的，可分区的分布式数据集，这个数据集的全

2016-11-27 20:19:29 1312

转载 Spark性能优化指南一——基础篇

1.Spark调优有哪些原则？2.Spark作业原理是什么？3.怎样进行参数调优？前言在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作，应用范围与前景非常广泛。在美团•大众点评，已经有很多同学在各种项目中尝试使用Spark

2016-11-27 20:13:56 2509

原创 Spark1.6学习-RDD

最近开始学习spark的的东西，在学习之前可以去学习一些scala的，毕竟源码是scala的，有些东西操作习惯是从scala中扩展出来的。下面切入正题可以参考，下面的官方文档http://spark.apache.org/docs/1.6.0/programming-guide.html#resilient-distributed-datasets-rddsRDDs（Resil

2016-11-24 20:08:35 814

原创类加载器与双亲委派模型

类加载器加载类的开放性类加载器（ClassLoader）是Java语言的一项创新，也是Java流行的一个重要原因。在类加载的第一阶段“加载”过程中，需要通过一个类的全限定名来获取定义此类的二进制字节流，完成这个动作的代码块就是类加载器。这一动作是放在Java虚拟机外部去实现的，以便让应用程序自己决定如何获取所需的类。虚拟机规范并没有指明二进制字节流要从一个Class文件获取

2016-10-22 09:22:14 833

原创跳表

最近在一篇文章中看到跳表的概念，下面是查到的一些。为什么选择跳表目前经常使用的平衡数据结构有：B树，红黑树，AVL树，Splay Tree, Treep等。想象一下，给你一张草稿纸，一只笔，一个编辑器，你能立即实现一颗红黑树，或者AVL树出来吗？很难吧，这需要时间，要考虑很多细节，要参考一堆算法与数据结构之类的树，还要参考网上的代码，相当麻烦。用跳

2016-09-20 15:10:23 680

原创序列化

最近在看关于序列化的东西，下面是从几个博客和书本上组合的，感觉挺有用。首先是为什么需要序列化注意：“为避免编译错误，为可序列化的类添加了无参数构造函数。”MSDN的定义：序列化是将对象状态转换为可保持或可传输的形式的过程。序列化的补集是反序列化，后者将流转换为对象。这两个过程一起保证数据易于存储和传输。大家关心的是为什么需要序列化，用传统的方法也能实现这种需求吗

2016-09-20 15:01:06 499

原创 BSON与JSON

最近在看MongoDB中有提到BSON下面就来解释一下。BSon是Binary JSON的简称，是一种类Json的一种二进制形式的存储格式。目前Bson主要被MongoDB（目前一个较为流行的非关系数据模型的开源数据库）使用于存储数据和网络数据交换。下面我们进入正题，介绍一下BSon是怎么把一个个MongoDB的文档转换成二进制形式进行存储的，在此之前读者需要从BSon官网上大致了

2016-09-01 19:31:18 5622 1

转载 Class.forName().newInstance()与new

最近复习多线程的程序，遇到了之前的Class.forName()的工厂，就总结一下主要功能Class.forName(xxx.xx.xx)返回的是一个类Class.forName(xxx.xx.xx)的作用是要求JVM查找并加载指定的类，也就是说JVM会执行该类的静态代码段下面，通过解答以下三个问题的来详细讲解下Class.forName()的用法。一.什么时候用Class.

2016-08-28 10:06:25 909

转载 java集合类深入分析之HashSet, HashMap

简介 Map和Set是比较常用的两种数据结构。我们在平常的编程中经常会用到他们。只是他们的内部实现机制到底是怎么样的呢？了解他们的具体实现对于我们如何有效的去使用他们也是很有帮助的。这里主要是针对Map, Set这两种类型的数据结构规约和典型的HashMap,HashSet实现做一个讨论。Map Map是一种典型的名值对类型，它提供一种Key-Val

2016-08-27 22:29:25 1028

原创 mapreduce的问题

最近在重新学习MR：把遇到的问题进行总结。1.写MR Job的时候遇到一个坑爹的异常：LongWritable cannot be cast to org.apache.hadoop.io.IntWritable 当写Map的时候，key的默认输入就是LongWritable。因为LongWritable指代Block中的数据偏移量。

2016-08-23 18:45:50 728

原创 MySQL的数据文件的整理

今天遇到MySQL的原始的数据文件.frm,.myd,myi导入的问题。下面就来简单地介绍一下。.frm .myd .myi都是Mysql存储数据的文件, 代表MySQL数据库表的结构/数据和索引文件 ,我们默认创建数据库和表时只生成数据库表结构的文件.frm. 移植数据库时,必须存在三种格式的数据库表文件,才能正常使用该DB。打开mysql的data目录，可能还会遇见另一种文

2016-07-21 19:02:01 966

转载词向量和语言模型 deep learning in NLP

最近看了一些关于deep learning 在自然语上的处理，下面就收集了关于一些在此类文章中常用的名词术语的理解　将词用“词向量”的方式表示可谓是将 Deep Learning 算法引入 NLP 领域的一个核心技术。大多数宣称用了 Deep Learning 的论文，其中往往也用了词向量。词向量　自然语言理解的问题要转化为机器学习的问题，第一步肯定是要找一种方法把这些符号

2016-07-14 21:06:14 2672

原创 java 反射的学习

一、什么是JAVA的反射机制Java反射是Java被视为动态（或准动态）语言的一个关键性质。这个机制允许程序在运行时透过Reflection APIs取得任何一个已知名称的class的内部信息，包括其modifiers（诸如public, static 等）、superclass（例如Object）、实现之interfaces（例如Cloneable），也包括fields和methods的

2016-07-13 20:02:45 510

原创 hadoop环境搭建hbase的一些问题

最近在学习hadoop的相关的工具，首先从环境入手，发现一些在搭建过程中遇到的一些问题，现在总结一下。1，hadoop的hdfs的问题，主要是进行多次格式化造成的dfs的data，中的version与dfs的name中的version的clusterID不一致，造成datanode或者namenode启动异常。这种问题的解决方法主要是可以将clusterID复制到对应的节点的v

2016-06-30 15:33:56 811

原创 linux的关于ssh 免密码登陆的问题

最近在搭建完全分布式的集群时候，在进行ssh的配置的时候遇到一些问题，下面总结一下本文使用的环境是 centos6.5 64位机器首先使用的是非root用户，假定是hadoop用户首先使用的ssh-keygen -t rsa 产生会在 /home/hadoop/.ssh 下产生两个密钥文件将id_rsa.pub 即公钥文件的内容追加到 authoriz

2016-06-26 21:24:57 575

原创使用centos6.5 64位编译hadoop2.7.2

最近，需要学习一下大数据的平台，就学着搭建，但是发现有时候官网上提供的是在32位机器上编译的代码，就需要自己编译源码，就从网上寻找过程，现在就总结一下本文使用的vm下面的centos6.5 64 位的版本，从官网下载最新的稳定版hadoop-2.7.2-src下面的操作是默认已经有centos6.5的系统环境。1.搭建编译环境1.1 安装基本的编译环境（主要是gcc等一些常用的，在

2016-06-26 11:00:38 787

原创使用pycaffe进行的fine-tuning的过程

最近在进行caffe的fine-tuning的实验，在此做个简单地介绍和总结，方便以后的查询。pre-trainning 与 fine-tuning 简单介绍在使用大型网络的时候，经常是自己的数据集有限，为此常常会使用现已成熟的网络结构，如：alexnet，Googlenet，vggnet等，可以使用之前在开源社区中已经有人训练好的参数文件（.caffemodel），进行网络的初始化，然后

2016-06-22 09:22:21 3262 2

转载交叉熵损失函数

最近看到CNNH(CNN Hashing)，里面有提到交叉熵损失函数，找了一下，以备查忘转载 http://blog.csdn.net/u012162613/article/details/44239919本文是《Neural networks and deep learning》概览中第三章的一部分，讲machine learning算法中用得很多的交叉熵代价函数。1.

2016-06-21 22:36:21 11423

原创迁移学习（ Transfer Learning ）

最近在看深度学习的资料中常常提到一些特征提取的，关于TransferLearning的东西，就补一下这方面的知识。迁移学习（Transfer Learning）在传统的机器学习的框架下，学习的任务就是在给定充分训练数据的基础上来学习一个分类模型；然后利用这个学习到的模型来对测试文档进行分类与预测。然而，我们看到机器学习算法在当前的Web挖掘研究中存在着一个关键的问题：

2016-06-14 15:37:07 8384

原创 caffe 中的卷积的计算过程

最近在做实验是，发现看代码可以增加自己的认识，就最近对卷积的操作的总结方便今后的查阅，在卷积神经网络中，卷积算是一个必不可少的操作，下图是一个简单的各层的关系。可以看出一个很好的扩展的关系，下面是整个卷积的大概的过程图中上半部分是传统的卷积的操作，下图是一个矩阵的相乘的操作。下图是在一个卷积层中将卷积操作展开的具体操作过程，他里面按照卷积核的大小取数据然后展

2016-05-29 13:30:34 7715

原创 stochastic pool

看到很多的对CNN的改造的文章中都是对pool做东西，最近看到一个随机池化，就好奇的去看了一下可以参看这篇文章 Stochastic Pooling for Regularization of Deep Convolutional Neural Networks在caffe中是支持最大池化，均值池化，随机池化的在使用中常见的是mean-pooling和max-poo

2016-05-28 17:29:20 2348

原创 Dropout 与 DropConnect

最近看Fractional Max-pooling 时，中提到了Dropconnect，一时间忘记了，就找出原文看了一下。参考原文：Regularization of Neural Networks using DropConnect现在总结一下，其实在实验中我们经常使用的是dropout （(Hinton et al., 2012).）方法，这篇文章提出的dropconnect的

2016-05-28 17:18:51 5632

原创 Global average Pooling

最近在看关于cifar10 的分类的识别的文章在看all convolution network 中看到中用到一个global average pooling 下面就介绍一下global average pooling 这个概念出自于 network in network 主要是用来解决全连接的问题，其主要是是将最后一层的特征图进行整张图的一个均值池化，形成一个特征点，将这

2016-05-28 00:24:34 44077 4

原创 Batch Normalization

在看到关于Batch Normalization 时，看到不错的，保留一下这里分五部分简单解释一下Batch Normalization (BN)。1. What is BN?顾名思义，batch normalization嘛，就是“批规范化”咯。Google在ICML文中描述的非常清晰，即在每次SGD时，通过mini-batch来对相应的activation做规范化操作，使得结果

2016-05-20 08:55:21 1347

原创 RCNN，Fast-RCNN，Faster-RCNN

RCNN的变体，在此介绍一下RCNN的相关变形及改进RCNN->SPPNET->Fast-RCNN->Faster-RCNN1.RCNN将原来的目标检测的过程与CNN建立连接，将检测转换成为region proposal的分类问题。RCNN算法的核心思想就是对每个区域通过CNN提取特征，然后接上一个分类器预测这个区域包含一个感兴趣对象的置信度，也就是说，转换成了一个图像

2016-05-17 23:26:55 2660

原创 Bag of Words

Bag-of-words model (BoW model) 最早出现在NLP和IR领域. 该模型忽略掉文本的语法和语序, 用一组无序的单词(words)来表达一段文字或一个文档. 近年来, BoW模型被广泛应用于计算机视觉中. 与应用于文本的BoW类比, 图像的特征(feature)被当作单词(Word).引子: 应用于文本的BoW modelWikipedia[1]上给出了如下

2016-05-17 22:33:52 1500

原创 rcnn的相关的知识

最近在看rcnn，rcnn主要是用来进行目标检测，语义分割的是一个将cnn使用到目标检测的突破，进而诞生了rcnn，sppnet，fast-rcnn，faster-rcnn在此，使用这个博文介绍一下以上的rcnn及其扩展中使用到的东西的简单介绍吧1，OverFeat OverFeat is a Convolutional Network-based image classifier

2016-05-17 22:23:01 922

原创 selectIve search for object recognize

在RCNN中使用到的selective searchselectIve search 主要完成的任务有点像是在多目标的图中找到特定的目标的首先什么是一幅图中的目标，怎样来区分提取对于图b，我们可以根据颜色来分开两只猫，但是不能根据纹理来分开。对于图c，我们可以根据纹理来找到变色龙，但是不能根据颜色来找到。对于图d，我们将车轮归类成车的一部分，既不是因为颜色相近，

2016-05-13 11:23:01 2017

原创使用python将自己的图片数据集准换成为cnn的数据集

在使用theano的cnn时，今天介绍一下关于如何将自己的数据集转换成像cnn的默认数据集mnist的形式在此本人遇到了一些坑，在此进行总结一下，声明在此使用的彩色图转灰度图进行的单通道的图像存储，对于多通道的图像随后进行总结主要流程是将图像数据读出将图像转换成numpy的数组形式将图像进行行的处理编程行向量的存储之后是将数据与标签进行合并存储存储在一个list中将

2016-04-29 13:47:05 16332 9

原创 python中使用pickle进行序列化

python的pickle模块实现了基本的数据序列和反序列化。通过pickle模块的序列化操作我们能够将程序中运行的对象信息保存到文件中去，永久存储；通过pickle模块的反序列化操作，我们能够从文件中创建上一次程序保存的对象。　　基本接口：　　pickle.dump(obj, file, [,protocol])　　注解：将对象obj保存到文件file中去。　　　　　pr

2016-04-29 13:23:28 10443

原创 python中使用字符串前面加r

最近在使用python进行读取的文件时，总需要在路径中去除掉一些特殊意义的字符进行转义在网上搜了一下，在python中除了可以使用‘\’之外，我们也可以使用r加在所要处理的字符外面如下所示path_t =r"D:\worksapce_python\20160426_cp\training"这样就不用专门的去处理引号之中的特殊字符了关于r 的使用做简单的介绍在

2016-04-29 13:01:43 26069

原创机器学习中的正则化简介

最近在看deeplearning 那本书，介绍了一些正则化的东西，下面就做一个简单的记录从深度学习的角度来进行解释我们在使用深度神经网络的时候，或者是在进行机器学习的损失函数的求解的时候总是会遇到需要增加一个正则化项的操作这个正则化的项目，在周志华的老师的书中曾经提到过，就是用来增加偏好的，也可以看做是对与求解的约束行为，但是正则化的作用还有很多，形式也是有很多1,在进行学

2016-04-20 23:15:10 1661

python 创建lmdb

python数据转换

深度学习基础教程

高光谱遥感——原理、技术与应用

计算机网络

空空如也