自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(25)
  • 资源 (4)
  • 收藏
  • 关注

原创 keras中的early stopping

目的:防止过拟合# early stopppingfrom keras.callbacks import EarlyStoppingearly_stopping = EarlyStopping(monitor='val_loss', patience=50, verbose=2)# 训练history = model.fit(train_X, train_y, epochs=300, ba...

2018-04-26 10:10:31 26010 4

原创 sklearn中数据集划分

1、回归from sklearn.model_selection import train_test_splittrain_X, test_X, train_y, test_y = train_test_split(X, y, test_size=0.25)2、分类X_train, X_valid, y_train, y_valid = train_test_split(X, y, test_s...

2018-04-25 10:13:21 1714

原创 spark-streaming多目录追加写

spark-streaming以每分钟为间隔消费kafka中的数据,过滤出对应分区的数据写入到hdfs对应目录中,原生的TextOutputFormat也会产生大量小文件,因此自定义了AppendTextOutputFormat会在已存在文件的基础上进行追加。但此时文件写到一个目录下,通过继承MultipleOutputFormat实现多目录写入,目录结构按照hive分区表的结构即可。//文本文件...

2018-04-24 16:56:49 2505 1

原创 xgboost-spark源码更改及编译

为解决xgboost-spark只支持二分类,不支持多分类的问题。源码更改参照:https://github.com/dmlc/xgboost/pull/2172/commits/ff73ff02c97006ec67b3d2e09f8afc503d4f0ff11、安装cmake     3.2以上版本     wget https://cmake.org/files/v3.6/cmake-3.6....

2018-04-24 16:11:08 1051

原创 机器学习中评价指标的选择

一、分类    二分类:eval_metric='auc'/'logloss'    多分类:eval_metric='mlogloss'    1、样本均衡:        准确度,二分类还可以选择auc。from sklearn.metrics import accuracy_scorefrom sklearn.metrics import classification...

2018-04-24 15:49:40 2079

原创 python中归一化、标准化模型保存与加载

归一化模型保存from sklearn import preprocessingmin_max_scaler = preprocessing.MinMaxScaler()X = min_max_scaler.fit_transform(X)from sklearn.externals import joblibjoblib.dump(min_max_scaler, 'scalar01'...

2018-04-24 15:34:59 9725 8

原创 xgboost、cx_Oracle安装

环境最好为centos7,centos6下需升级gcc1、安装gcc 下载:https://download.csdn.net/download/ukakasu/10368679 rpm -ivh *2、升级gcc 下载:https://download.csdn.net/download/ukakasu/103686902.1、安装gmp-4.3.2...

2018-04-23 17:18:27 163

原创 xgboost on spark

背景     项目需要预测出每一类别的概率,spark ml、mlib中自带算法只能预测出所属类别满足不了需求,因此找到此算法。版本     spark1.6只能用XGBoost0.7之前的版本,此版本训练及预测只能使用rdd不能用df造成一定的不便,预测出的结果只有概率值,需自己与原始数据关联得到完整的记录,最大概率所属类别需自己算出。因此选择了spark2.0与XGBoost0.7。scala...

2018-04-23 16:52:28 4335 7

原创 spark中udf使用

probabilities列取最大值的角标(以下为scala代码)1、自定义函数def pSort1(probability: DenseVector): Int = { val parry = probability.toArray //parry.zipWithIndex.maxBy(_._1)._2 parry.zipWithIndex.sortWith(_._1 > _....

2018-04-23 16:42:25 1087

原创 YAD2K使用

Yet Another Darknet 2 Keras该项目使用了keras与tensorflow-gpu,因此可以在任何使用该框架的环境下运行

2018-04-23 11:13:30 3819

原创 darknet训练自己的数据

darknet训练自己的数据

2018-04-23 11:11:26 1933

原创 Darknet安装与使用

Darknet安装与使用

2018-04-20 16:30:49 5559

原创 keras安装

keras安装

2018-04-20 16:29:04 384

原创 HBase写入优化

优化前主要问题吞吐量– 数据量达到1.59M 后 迅速下降  虽然创建了13个预分区,但是由于单个请求的量依然很大,所以请求还是分摊在3-4台机器上,分布式集群的能力没有完全发挥出来  优化后请求达到了64000/s每秒请求平均在>1.5M 请求数 下降 MemberStore 占用提升 -4.1G  写入流程  优

2018-04-20 16:06:51 5887

原创 HDP2.2集群升级2.4

HDP集群升级一、版本信息1、原版本:ambari-2.2.2.0-centos7HDP-UTILS-1.1.0.20-centos7HDP-2.4.2.0-centos72、升级版本:ambari-2.4.0.1-centos7HDP-2.5.0.0-centos7HDP-UTILS-1.1.0.21-centos7 下载地址http://docs

2018-04-20 14:56:19 833

原创 HDP2.2集群安装

1、修改hosts/etc/hosts          hostname -f 10.0.0.13   HDP-test0.HDPStudy.b1.internal.chinacloudapp.cn  HDP-test010.0.0.16   HDP-test01.HDPStudy.b1.internal.chinacloudapp.cn  HDP-test0110.0.

2018-04-20 14:55:07 473

原创 ES性能测试

主节点Es-1: 配置8核,6g调整配置为8核,12g   Node-3:配置为4核,12g Node-4,5:配置为8核,4g  Es-1,2、node-1,2:配置为8核,12g   集群中尽量避免水桶效应;master节点内存应尽量大,否则gc时间过长,  [2017-03-06T08:38:35,604][INFO

2018-04-20 14:27:03 13210 2

原创 日志接入es与hdfs流程

日志接入es与hdfs流程Filebeat轻量级日志采集工具,代替logstash部署在采集机,可减轻采集机机器压力。Filebeat解压即可使用。Filebeat注册为系统服务:PowerShell.exe -ExecutionPolicy UnRestricted -File install-service-filebeat.ps1修改配置文件filebeat.ymlfilebeat.pros...

2018-04-20 14:22:40 2897

原创 Kettel定时任务创建

Kettel定时任务 一、无参数新建转换crontest.ktr 定义自己的转换内容。 新建任务crontest.kjb 双击转换,选择转换文件 新建执行任务脚本job.batcd E: \data-integration  Kitchen.bat /norep -file=C:\ kettle_lianxi\job.kjb /logfile=C

2018-04-20 14:17:48 479

原创 ES5.1安装

ES5.1安装一、系统环境准备1、安装jdkrpm -ivh jdk-8u91-linux-x64.rpm  修改环境变量vi /etc/profile JAVA_HOME=/usr/java/jdk1.8.0_91 JRE_HOME=/usr/java/jdk1.8.0_91/jre PATH=$PATH:$JAVA_HOME/bi

2018-04-20 14:14:51 649

原创 设置Mapper数量与各节点container数量

container数目设置RM的内存资源配置,主要是通过下面的两个参数进行的(这两个值是Yarn平台特性,应在yarn-site.xml中配置好):yarn.scheduler.minimum-allocation-mbyarn.scheduler.maximum-allocation-mb说明:单个容器可申请的最小与最大内存,应用在运行申请内存时不能超过最大值,小于最小值则分配最小值,从这个角度...

2018-04-20 13:45:42 4762

原创 软连接与硬链接

软连接:ln -s      带箭头,大小与原文件不一样硬链接:ln     没有箭头,大小与原文件一样原文件重命名后,软连接找不到原文件,硬链接无影响;原文件内容更改时,两种连接的内容都会更改...

2018-04-20 13:38:51 121

原创 CM及CDH升级至5.7.0

准备升级所需文件(参照安装文档)http://192.168.50.100/cm5.7.0/ http://192.168.50.100/cdh5.7.0/  查看内核版本uname -r需在2.6.32-504.16.2以上升级:rpm -uvh kernel-firmware-2.6.32-573.el6.noarch.rpmrpm -uvh kernel-

2018-04-20 11:34:52 477

原创 CM5.7.0 - CDH5.7.0安装

CM5.7.0 - CDH5.7.0的安装配置 0、依赖安装: 升级内核:rpm -uvh kernel-firmware-2.6.32-573.el6.noarch.rpmrpm -uvh kernel-2.6.32-573.el6.x86_64.rpm重启机器 添加依赖包:python-psycopg2rpm -ivh python-psycopg2

2018-04-20 11:03:21 1109

原创 通俗易懂机器学习

 机器学习  前言 机器学习是什么,是用来干什么的?机器学习就是样本中有大量的x(特征量)和y(目标变量)然后求这个function。机器学习是让机器寻找函数Y=f(X)的过程,使得当我们给定一个X时,会返回我们想要得到的Y值。例: 房价预测:X:位置、层数 -> Y:xxxx元/平相亲预测:X:高富帅、矮矬穷 -> Y:见、不见车牌识别...

2018-04-20 10:48:32 1945

oracle11g-el7依赖

binutils-2.23.52.0.1-12.el7.x86_64 compat-libcap1-1.10-3.el7.x86_64 compat-libstdc++-33-3.2.3-71.el7.i686 compat-libstdc++-33-3.2.3-71.el7.x86_64 gcc-4.8.2-3.el7.x86_64 gcc-c++-4.8.2-3.el7.x86_64 glibc-2.17-36.el7.i686 glibc-2.17-36.el7.x86_64 glibc-devel-2.17-36.el7.i686 glibc-devel-2.17-36.el7.x86_64 ksh

2018-06-21

python连接oracle包

centos6下python3连接oracle11g,cx_Oracle-6.2.1-cp36-cp36m-manylinux1_x86_64.whl,oracle-instantclient11.2-basic-11.2.0.1.0-1.x86_64.rpm

2018-04-23

gcc升级依赖包

gcc升级依赖包,gcc-5.4.0.tar.gz,centos6下gcc升级至gcc-5.4.0

2018-04-23

gcc安装依赖包

centos6下gcc安装依赖包,gcc-4.4.7-4.el6.x86_64.rpm、gcc-c++-4.4.7-4.el6.x86_64.rpm、cpp-4.4.7-4.el6.x86_64.rpm等

2018-04-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除