- 博客(4)
- 资源 (4)
- 收藏
- 关注
转载 参考美团的"机器学习中的数据清洗与特征处理综述"(转载)
综述如上图所示是一个经典的机器学习问题框架图。数据清洗和特征挖掘的工作是在灰色框中框出的部分,即“数据清洗=>特征,标注数据生成=>模型学习=>模型应用”中的前两个步骤。灰色框中蓝色箭头对应的是离线处理部分。主要工作是从原始数据,如文本、图像或者应用数据中清洗出特征数据和标注数据。对清洗出的特征和标注数据进行处理,例如样本采样,样本调权,异常点去除,特征归一化处理,特征变化
2017-03-24 13:10:13 672
原创 Java二进制运算
位运算:左移位:<</* 00000001 << 1 = 00000010 */1 << 1 == 2 /* 00000001 << 3 = 00001000 */1 << 3 == 8右移位:>> 是有符号操作符,使用最高位来表示数值的正负,负数的最高位永远为1。一个以1开头的二进制数移位后还将以1开头,一个以0开头的二进制树移位后还将以0开头。/* 11111111 11111111 11
2017-03-12 16:09:32 3610
原创 Eclipse远程连接Hadoop
先说下我自己laptop没有hadoop环境(虚拟机中有伪分布式,不过是为了熟悉hadoop啦),也没有像网上那样用cygwin,主要得益于实验室服务器上师兄之前搭建了hadoop集群,之前一直用xshell连接的。不过后面要写mapreduce程序的时候在本地写再打包成jar放到hadoop上跑就没法本地运行测试了。所以这里是记录:本机eclipse远程连接hadoop集群,使用hadoop2x-
2017-03-12 16:00:14 1857
原创 TensorFlow保存和加载训练模型
对于机器学习,尤其是深度学习DL的算法,模型训练可能很耗时,几个小时或者几天,所以如果是测试模块出了问题,每次都要重新运行就显得很浪费时间,所以如果训练部分没有问题,那么可以直接将训练的模型保存起来,然后下次运行直接加载模型,然后进行测试很方便。在tensorflow中保存(save)和加载(restore)模型的类是tf.train.Saver(),其中变量保存的是key-value,不传参数默认
2017-03-07 11:13:33 16508
Google的protobuf,可以下载安装
2017-02-03
numpy在win10上的exe安装包,很方便
2016-12-07
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人