自定义博客皮肤

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

学习GBDT+LR

最近看了facebook的Practical Lessons from Predicting Clicks on Ads at Facebook的这篇文章 下面简单的介绍一下该算法: 1.GBDT+LR 模型 首先,该模型不算是新的模型了,在一些大公司的ctr的模型中已经使用了。 ...

2017-10-28 20:28:37

阅读数 8646

评论数 0

xgboost在win10 安装的we

最近在看xgboost的工具,需要在win10下安装,遇到一些问题,下面记录一下安装是遇到的问题。 首先是官方网站的安装说明 http://xgboost.readthedocs.io/en/latest/build.html 但是在安装前需要安装编译的环境 可以从下面的连...

2017-07-21 00:05:27

阅读数 696

评论数 0

mxnet的更新问题

最近关于caffe 和mxnet 都是在GitHub上的开源项目。 经常会出现需要更新版本到本地,使用下面的命令来git最新的文件到本地 重新编译 git pull && git submodule update && make clean &&...

2017-04-03 21:42:39

阅读数 1657

评论数 0

caffe训练时的一些错误记录

最近突然需要需要将之前的模型加载并进行训练,发现出错,就赶紧排查 I0328 09:35:34.497181  6268 layer_factory.hpp:76] Creating layer data I0328 09:35:34.509884  6268 net.cpp:106] Cre...

2017-03-28 09:49:04

阅读数 2833

评论数 0

ROC和AUC介绍以及如何计算AUC

ROC(Receiver Operating Characteristic)曲线和AUC常被用来评价一个二值分类器(binary classifier)的优劣,对两者的简单介绍见这里。这篇博文简单介绍ROC和AUC的特点,以及更为深入地,讨论如何作出ROC曲线图以及计算AUC。 ROC曲线 ...

2017-02-24 10:14:26

阅读数 1577

评论数 0

maven的setting.xml配置文件详解

setting.xml配置文件 maven的配置文件settings.xml存在于两个地方: 1.安装的地方:${M2_HOME}/conf/settings.xml 2.用户的目录:${user.home}/.m2/settings.xml 前者又被叫做全局配置,...

2017-02-20 10:12:14

阅读数 1719

评论数 0

hadoop之HDFS的扩充

最近在vm中进行扩容之后考虑,openstack的容量添加,随之想起hdfs的容量扩充的问题,从网上查找资料之后,现总结如下: 首先在服务器上大都使用的Linux的系统,实验上大都采用的是centos开源的项目。 在Linux中添加硬盘时,需要考虑的是容量,但是随着硬件资源的扩展现在磁盘的容量...

2016-12-04 16:49:32

阅读数 6320

评论数 0

Spark性能优化指南二——高级篇

1.如何判断发生数据倾斜? 2.为什么会发生数据倾斜? 3.如何定位导致数据倾斜的代码? 4.Spark Web UI哪些参数可以反映数据倾斜? 5.本文对于数据倾斜提出哪些解决方案? 前言 继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作...

2016-11-27 20:34:08

阅读数 637

评论数 0

RDD详解

1、RDD是什么? 2、为什么产生RDD? 3、RDD在spark是什么地位? 4、RDD在spark说是什么作用? 5、如何操作RDD? 一、Spark RDD详解 1、RDD是什么? RDD:Spark的核心概念是RDD (resilientdistributed...

2016-11-27 20:19:29

阅读数 615

评论数 0

Spark性能优化指南一——基础篇

1.Spark调优有哪些原则? 2.Spark作业原理是什么? 3.怎样进行参数调优? 前言 在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,...

2016-11-27 20:13:56

阅读数 2155

评论数 0

Spark1.6学习-RDD

最近开始学习spark的的东西,在学习之前可以去学习一些scala的,毕竟源码是scala的,有些东西操作习惯是从scala中扩展出来的。 下面切入正题 可以参考,下面的官方文档 http://spark.apache.org/docs/1.6.0/programming-guide.htm...

2016-11-24 20:08:35

阅读数 564

评论数 0

类加载器与双亲委派模型

类加载器 加载类的开放性 类加载器(ClassLoader)是Java语言的一项创新,也是Java流行的一个重要原因。在类加载的第一阶段“加载”过程中,需要通过一个类的全限定名来获取定义此类的二进制字节流,完成这个动作的代码块就是类加载器。这一动作是放在Java虚拟机外部去实现的,以便让应用程...

2016-10-22 09:22:14

阅读数 616

评论数 0

跳表

最近在一篇文章中看到跳表的概念,下面是查到的一些。 为什么选择跳表 目前经常使用的平衡数据结构有:B树,红黑树,AVL树,Splay Tree, Treep等。 想象一下,给你一张草稿纸,一只笔,一个编辑器,你能立即实现一颗红黑树,或者AVL树 出来吗? 很难吧,这需要时间...

2016-09-20 15:10:23

阅读数 458

评论数 0

序列化

最近在看关于序列化的东西,下面是从几个博客和书本上组合的,感觉挺有用。 首先是为什么需要序列化 注意:“为避免编译错误,为可序列化的类添加了无参数构造函数。” MSDN的定义:序列化是将对象状态转换为可保持或可传输的形式的过程。序列化的补集是反序列化,后者将流转换为对象。这两...

2016-09-20 15:01:06

阅读数 303

评论数 0

BSON与JSON

最近在看MongoDB中有提到BSON下面就来解释一下。 BSon是Binary JSON的简称,是一种类Json的一种二进制形式的存储格式。目前Bson主要被MongoDB(目前一个较为流行的非关系数据模型的开源数据库)使用于存储数据和网络数据交换。 下面我们进入正题,介绍一下BSon是怎么...

2016-09-01 19:31:18

阅读数 4208

评论数 1

Class.forName().newInstance()与new

最近复习多线程的程序,遇到了之前的Class.forName()的工厂,就总结一下 主要功能 Class.forName(xxx.xx.xx)返回的是一个类 Class.forName(xxx.xx.xx)的作用是要求JVM查找并加载指定的类, 也就是说JVM会执行该类的静态代码段 下面,...

2016-08-28 10:06:25

阅读数 615

评论数 0

java集合类深入分析之HashSet, HashMap

简介     Map和Set是比较常用的两种数据结构。我们在平常的编程中经常会用到他们。只是他们的内部实现机制到底是怎么样的呢?了解他们的具体实现对于我们如何有效的去使用他们也是很有帮助的。这里主要是针对Map, Set这两种类型的数据结构规约和典型的HashMap,HashSe...

2016-08-27 22:29:25

阅读数 722

评论数 0

mapreduce的问题

最近在重新学习MR:把遇到的问题进行总结。 1.写MR Job的时候遇到一个坑爹的异常: LongWritable cannot be cast to org.apache.hadoop.io.IntWritable   当写Map的时候,key的默认输入就是L...

2016-08-23 18:45:50

阅读数 374

评论数 0

MySQL的数据文件的整理

今天遇到MySQL的原始的数据文件.frm,.myd,myi导入的问题。下面就来简单地介绍一下。 .frm .myd .myi都是Mysql存储数据的文件, 代表MySQL数据库表的结构/数据和索引文件 ,我们默认创建数据库和表时只生成数据库表结构的文件.frm. 移植数据库时,必须存在...

2016-07-21 19:02:01

阅读数 626

评论数 0

词向量和语言模型 deep learning in NLP

最近看了一些关于deep learning 在自然语上的处理,下面就收集了关于一些在此类文章中常用的名词术语的理解  将词用“词向量”的方式表示可谓是将 Deep Learning 算法引入 NLP 领域的一个核心技术。大多数宣称用了 Deep Learning 的论文,其中往往也用了词向量。 ...

2016-07-14 21:06:14

阅读数 2187

评论数 0

提示
确定要删除当前文章?
取消 删除