2018年04月_ukakasu

12月 11月 10月 09月 08月 07月 06月 05月 04月

原创 keras中的early stopping

目的：防止过拟合# early stopppingfrom keras.callbacks import EarlyStoppingearly_stopping = EarlyStopping(monitor='val_loss', patience=50, verbose=2)# 训练history = model.fit(train_X, train_y, epochs=300, ba...

2018-04-26 10:10:31 26010 4

1、回归from sklearn.model_selection import train_test_splittrain_X, test_X, train_y, test_y = train_test_split(X, y, test_size=0.25)2、分类X_train, X_valid, y_train, y_valid = train_test_split(X, y, test_s...

2018-04-25 10:13:21 1714

原创 spark-streaming多目录追加写

spark-streaming以每分钟为间隔消费kafka中的数据，过滤出对应分区的数据写入到hdfs对应目录中，原生的TextOutputFormat也会产生大量小文件，因此自定义了AppendTextOutputFormat会在已存在文件的基础上进行追加。但此时文件写到一个目录下，通过继承MultipleOutputFormat实现多目录写入，目录结构按照hive分区表的结构即可。//文本文件...

2018-04-24 16:56:49 2505 1

原创 xgboost-spark源码更改及编译

为解决xgboost-spark只支持二分类，不支持多分类的问题。源码更改参照：https://github.com/dmlc/xgboost/pull/2172/commits/ff73ff02c97006ec67b3d2e09f8afc503d4f0ff11、安装cmake 3.2以上版本 wget https://cmake.org/files/v3.6/cmake-3.6....

2018-04-24 16:11:08 1051

原创机器学习中评价指标的选择

一、分类二分类：eval_metric='auc'/'logloss' 多分类：eval_metric='mlogloss' 1、样本均衡：准确度，二分类还可以选择auc。from sklearn.metrics import accuracy_scorefrom sklearn.metrics import classification...

2018-04-24 15:49:40 2079

原创 python中归一化、标准化模型保存与加载

归一化模型保存from sklearn import preprocessingmin_max_scaler = preprocessing.MinMaxScaler()X = min_max_scaler.fit_transform(X)from sklearn.externals import joblibjoblib.dump(min_max_scaler, 'scalar01'...

2018-04-24 15:34:59 9725 8

原创 xgboost、cx_Oracle安装

环境最好为centos7，centos6下需升级gcc1、安装gcc 下载：https://download.csdn.net/download/ukakasu/10368679 rpm -ivh *2、升级gcc 下载：https://download.csdn.net/download/ukakasu/103686902.1、安装gmp-4.3.2...

2018-04-23 17:18:27 163

原创 xgboost on spark

背景项目需要预测出每一类别的概率，spark ml、mlib中自带算法只能预测出所属类别满足不了需求，因此找到此算法。版本 spark1.6只能用XGBoost0.7之前的版本，此版本训练及预测只能使用rdd不能用df造成一定的不便，预测出的结果只有概率值，需自己与原始数据关联得到完整的记录，最大概率所属类别需自己算出。因此选择了spark2.0与XGBoost0.7。scala...

2018-04-23 16:52:28 4335 7

原创 spark中udf使用

probabilities列取最大值的角标（以下为scala代码）1、自定义函数def pSort1(probability: DenseVector): Int = { val parry = probability.toArray //parry.zipWithIndex.maxBy(_._1)._2 parry.zipWithIndex.sortWith(_._1 > _....

2018-04-23 16:42:25 1087

原创 YAD2K使用

Yet Another Darknet 2 Keras该项目使用了keras与tensorflow-gpu，因此可以在任何使用该框架的环境下运行

2018-04-23 11:13:30 3819

原创 darknet训练自己的数据

darknet训练自己的数据

2018-04-23 11:11:26 1933

原创 Darknet安装与使用

Darknet安装与使用

2018-04-20 16:30:49 5559

原创 keras安装

keras安装

2018-04-20 16:29:04 384

原创 HBase写入优化

优化前主要问题吞吐量– 数据量达到1.59M 后迅速下降虽然创建了13个预分区，但是由于单个请求的量依然很大，所以请求还是分摊在3-4台机器上，分布式集群的能力没有完全发挥出来优化后请求达到了64000/s每秒请求平均在>1.5M 请求数下降 MemberStore 占用提升 -4.1G 写入流程优

2018-04-20 16:06:51 5887

原创 HDP2.2集群升级2.4

HDP集群升级一、版本信息1、原版本：ambari-2.2.2.0-centos7HDP-UTILS-1.1.0.20-centos7HDP-2.4.2.0-centos72、升级版本：ambari-2.4.0.1-centos7HDP-2.5.0.0-centos7HDP-UTILS-1.1.0.21-centos7 下载地址http://docs

2018-04-20 14:56:19 833

原创 HDP2.2集群安装

1、修改hosts/etc/hosts hostname -f 10.0.0.13 HDP-test0.HDPStudy.b1.internal.chinacloudapp.cn HDP-test010.0.0.16 HDP-test01.HDPStudy.b1.internal.chinacloudapp.cn HDP-test0110.0.

2018-04-20 14:55:07 473

原创 ES性能测试

主节点Es-1: 配置8核，6g调整配置为8核，12g Node-3：配置为4核，12g Node-4,5：配置为8核，4g Es-1,2、node-1,2：配置为8核，12g 集群中尽量避免水桶效应；master节点内存应尽量大，否则gc时间过长， [2017-03-06T08:38:35,604][INFO

2018-04-20 14:27:03 13210 2

原创日志接入es与hdfs流程

日志接入es与hdfs流程Filebeat轻量级日志采集工具，代替logstash部署在采集机，可减轻采集机机器压力。Filebeat解压即可使用。Filebeat注册为系统服务：PowerShell.exe -ExecutionPolicy UnRestricted -File install-service-filebeat.ps1修改配置文件filebeat.ymlfilebeat.pros...

2018-04-20 14:22:40 2897

原创 Kettel定时任务创建

Kettel定时任务一、无参数新建转换crontest.ktr 定义自己的转换内容。新建任务crontest.kjb 双击转换，选择转换文件新建执行任务脚本job.batcd E: \data-integration Kitchen.bat /norep -file=C:\ kettle_lianxi\job.kjb /logfile=C

2018-04-20 14:17:48 479

原创 ES5.1安装

ES5.1安装一、系统环境准备1、安装jdkrpm -ivh jdk-8u91-linux-x64.rpm 修改环境变量vi /etc/profile JAVA_HOME=/usr/java/jdk1.8.0_91 JRE_HOME=/usr/java/jdk1.8.0_91/jre PATH=$PATH:$JAVA_HOME/bi

2018-04-20 14:14:51 649

原创设置Mapper数量与各节点container数量

container数目设置RM的内存资源配置，主要是通过下面的两个参数进行的（这两个值是Yarn平台特性，应在yarn-site.xml中配置好）：yarn.scheduler.minimum-allocation-mbyarn.scheduler.maximum-allocation-mb说明：单个容器可申请的最小与最大内存，应用在运行申请内存时不能超过最大值，小于最小值则分配最小值，从这个角度...

2018-04-20 13:45:42 4762

原创软连接与硬链接

软连接：ln -s 带箭头，大小与原文件不一样硬链接：ln 没有箭头，大小与原文件一样原文件重命名后，软连接找不到原文件，硬链接无影响；原文件内容更改时，两种连接的内容都会更改...

2018-04-20 13:38:51 121

原创 CM及CDH升级至5.7.0

准备升级所需文件（参照安装文档）http://192.168.50.100/cm5.7.0/ http://192.168.50.100/cdh5.7.0/ 查看内核版本uname -r需在2.6.32-504.16.2以上升级：rpm -uvh kernel-firmware-2.6.32-573.el6.noarch.rpmrpm -uvh kernel-

2018-04-20 11:34:52 477

原创 CM5.7.0 - CDH5.7.0安装

CM5.7.0 - CDH5.7.0的安装配置 0、依赖安装：升级内核：rpm -uvh kernel-firmware-2.6.32-573.el6.noarch.rpmrpm -uvh kernel-2.6.32-573.el6.x86_64.rpm重启机器添加依赖包：python-psycopg2rpm -ivh python-psycopg2

2018-04-20 11:03:21 1109

原创通俗易懂机器学习

机器学习前言机器学习是什么，是用来干什么的？机器学习就是样本中有大量的x（特征量）和y（目标变量）然后求这个function。机器学习是让机器寻找函数Y=f(X)的过程，使得当我们给定一个X时，会返回我们想要得到的Y值。例：房价预测：X：位置、层数 -> Y：xxxx元/平相亲预测：X：高富帅、矮矬穷 -> Y：见、不见车牌识别...

2018-04-20 10:48:32 1945

oracle11g-el7依赖

binutils-2.23.52.0.1-12.el7.x86_64 compat-libcap1-1.10-3.el7.x86_64 compat-libstdc++-33-3.2.3-71.el7.i686 compat-libstdc++-33-3.2.3-71.el7.x86_64 gcc-4.8.2-3.el7.x86_64 gcc-c++-4.8.2-3.el7.x86_64 glibc-2.17-36.el7.i686 glibc-2.17-36.el7.x86_64 glibc-devel-2.17-36.el7.i686 glibc-devel-2.17-36.el7.x86_64 ksh

2018-06-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

ukakasu的博客