自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 资源 (4)
  • 收藏
  • 关注

转载 参考美团的"机器学习中的数据清洗与特征处理综述"(转载)

综述如上图所示是一个经典的机器学习问题框架图。数据清洗和特征挖掘的工作是在灰色框中框出的部分,即“数据清洗=>特征,标注数据生成=>模型学习=>模型应用”中的前两个步骤。灰色框中蓝色箭头对应的是离线处理部分。主要工作是从原始数据,如文本、图像或者应用数据中清洗出特征数据和标注数据。对清洗出的特征和标注数据进行处理,例如样本采样,样本调权,异常点去除,特征归一化处理,特征变化

2017-03-24 13:10:13 672

原创 Java二进制运算

位运算:左移位:<</* 00000001 << 1 = 00000010 */1 << 1 == 2 /* 00000001 << 3 = 00001000 */1 << 3 == 8右移位:>> 是有符号操作符,使用最高位来表示数值的正负,负数的最高位永远为1。一个以1开头的二进制数移位后还将以1开头,一个以0开头的二进制树移位后还将以0开头。/* 11111111 11111111 11

2017-03-12 16:09:32 3610

原创 Eclipse远程连接Hadoop

先说下我自己laptop没有hadoop环境(虚拟机中有伪分布式,不过是为了熟悉hadoop啦),也没有像网上那样用cygwin,主要得益于实验室服务器上师兄之前搭建了hadoop集群,之前一直用xshell连接的。不过后面要写mapreduce程序的时候在本地写再打包成jar放到hadoop上跑就没法本地运行测试了。所以这里是记录:本机eclipse远程连接hadoop集群,使用hadoop2x-

2017-03-12 16:00:14 1857

原创 TensorFlow保存和加载训练模型

对于机器学习,尤其是深度学习DL的算法,模型训练可能很耗时,几个小时或者几天,所以如果是测试模块出了问题,每次都要重新运行就显得很浪费时间,所以如果训练部分没有问题,那么可以直接将训练的模型保存起来,然后下次运行直接加载模型,然后进行测试很方便。在tensorflow中保存(save)和加载(restore)模型的类是tf.train.Saver(),其中变量保存的是key-value,不传参数默认

2017-03-07 11:13:33 16508

安装faster-rcnn需要的external文件库

这里是CUDA8.0使用的external文件库,可以直接使用

2017-02-03

Google的protobuf,可以下载安装

因为可能会出现No module named google.protobuf.internal的问题,但是缺少的这个包又比较难找,这里可以直接下载安装,简单好用

2017-02-03

numpy在win10上的exe安装包,很方便

这个是很难找到的win10下的安装包,是exe格式的安装包,就和普通安装软件没什么区别,在Windows下还在为无法使用numpy而困扰的同学可以下载,简单好用

2016-12-07

libsvm工具包,兼容Python2.7

大家免费享用吧

2016-12-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除