- 博客(25)
- 资源 (4)
- 收藏
- 关注
原创 keras中的early stopping
目的:防止过拟合# early stopppingfrom keras.callbacks import EarlyStoppingearly_stopping = EarlyStopping(monitor='val_loss', patience=50, verbose=2)# 训练history = model.fit(train_X, train_y, epochs=300, ba...
2018-04-26 10:10:31 26010 4
原创 sklearn中数据集划分
1、回归from sklearn.model_selection import train_test_splittrain_X, test_X, train_y, test_y = train_test_split(X, y, test_size=0.25)2、分类X_train, X_valid, y_train, y_valid = train_test_split(X, y, test_s...
2018-04-25 10:13:21 1714
原创 spark-streaming多目录追加写
spark-streaming以每分钟为间隔消费kafka中的数据,过滤出对应分区的数据写入到hdfs对应目录中,原生的TextOutputFormat也会产生大量小文件,因此自定义了AppendTextOutputFormat会在已存在文件的基础上进行追加。但此时文件写到一个目录下,通过继承MultipleOutputFormat实现多目录写入,目录结构按照hive分区表的结构即可。//文本文件...
2018-04-24 16:56:49 2505 1
原创 xgboost-spark源码更改及编译
为解决xgboost-spark只支持二分类,不支持多分类的问题。源码更改参照:https://github.com/dmlc/xgboost/pull/2172/commits/ff73ff02c97006ec67b3d2e09f8afc503d4f0ff11、安装cmake 3.2以上版本 wget https://cmake.org/files/v3.6/cmake-3.6....
2018-04-24 16:11:08 1051
原创 机器学习中评价指标的选择
一、分类 二分类:eval_metric='auc'/'logloss' 多分类:eval_metric='mlogloss' 1、样本均衡: 准确度,二分类还可以选择auc。from sklearn.metrics import accuracy_scorefrom sklearn.metrics import classification...
2018-04-24 15:49:40 2079
原创 python中归一化、标准化模型保存与加载
归一化模型保存from sklearn import preprocessingmin_max_scaler = preprocessing.MinMaxScaler()X = min_max_scaler.fit_transform(X)from sklearn.externals import joblibjoblib.dump(min_max_scaler, 'scalar01'...
2018-04-24 15:34:59 9725 8
原创 xgboost、cx_Oracle安装
环境最好为centos7,centos6下需升级gcc1、安装gcc 下载:https://download.csdn.net/download/ukakasu/10368679 rpm -ivh *2、升级gcc 下载:https://download.csdn.net/download/ukakasu/103686902.1、安装gmp-4.3.2...
2018-04-23 17:18:27 163
原创 xgboost on spark
背景 项目需要预测出每一类别的概率,spark ml、mlib中自带算法只能预测出所属类别满足不了需求,因此找到此算法。版本 spark1.6只能用XGBoost0.7之前的版本,此版本训练及预测只能使用rdd不能用df造成一定的不便,预测出的结果只有概率值,需自己与原始数据关联得到完整的记录,最大概率所属类别需自己算出。因此选择了spark2.0与XGBoost0.7。scala...
2018-04-23 16:52:28 4335 7
原创 spark中udf使用
probabilities列取最大值的角标(以下为scala代码)1、自定义函数def pSort1(probability: DenseVector): Int = { val parry = probability.toArray //parry.zipWithIndex.maxBy(_._1)._2 parry.zipWithIndex.sortWith(_._1 > _....
2018-04-23 16:42:25 1087
原创 YAD2K使用
Yet Another Darknet 2 Keras该项目使用了keras与tensorflow-gpu,因此可以在任何使用该框架的环境下运行
2018-04-23 11:13:30 3819
原创 HBase写入优化
优化前主要问题吞吐量– 数据量达到1.59M 后 迅速下降 虽然创建了13个预分区,但是由于单个请求的量依然很大,所以请求还是分摊在3-4台机器上,分布式集群的能力没有完全发挥出来 优化后请求达到了64000/s每秒请求平均在>1.5M 请求数 下降 MemberStore 占用提升 -4.1G 写入流程 优
2018-04-20 16:06:51 5887
原创 HDP2.2集群升级2.4
HDP集群升级一、版本信息1、原版本:ambari-2.2.2.0-centos7HDP-UTILS-1.1.0.20-centos7HDP-2.4.2.0-centos72、升级版本:ambari-2.4.0.1-centos7HDP-2.5.0.0-centos7HDP-UTILS-1.1.0.21-centos7 下载地址http://docs
2018-04-20 14:56:19 833
原创 HDP2.2集群安装
1、修改hosts/etc/hosts hostname -f 10.0.0.13 HDP-test0.HDPStudy.b1.internal.chinacloudapp.cn HDP-test010.0.0.16 HDP-test01.HDPStudy.b1.internal.chinacloudapp.cn HDP-test0110.0.
2018-04-20 14:55:07 473
原创 ES性能测试
主节点Es-1: 配置8核,6g调整配置为8核,12g Node-3:配置为4核,12g Node-4,5:配置为8核,4g Es-1,2、node-1,2:配置为8核,12g 集群中尽量避免水桶效应;master节点内存应尽量大,否则gc时间过长, [2017-03-06T08:38:35,604][INFO
2018-04-20 14:27:03 13210 2
原创 日志接入es与hdfs流程
日志接入es与hdfs流程Filebeat轻量级日志采集工具,代替logstash部署在采集机,可减轻采集机机器压力。Filebeat解压即可使用。Filebeat注册为系统服务:PowerShell.exe -ExecutionPolicy UnRestricted -File install-service-filebeat.ps1修改配置文件filebeat.ymlfilebeat.pros...
2018-04-20 14:22:40 2897
原创 Kettel定时任务创建
Kettel定时任务 一、无参数新建转换crontest.ktr 定义自己的转换内容。 新建任务crontest.kjb 双击转换,选择转换文件 新建执行任务脚本job.batcd E: \data-integration Kitchen.bat /norep -file=C:\ kettle_lianxi\job.kjb /logfile=C
2018-04-20 14:17:48 479
原创 ES5.1安装
ES5.1安装一、系统环境准备1、安装jdkrpm -ivh jdk-8u91-linux-x64.rpm 修改环境变量vi /etc/profile JAVA_HOME=/usr/java/jdk1.8.0_91 JRE_HOME=/usr/java/jdk1.8.0_91/jre PATH=$PATH:$JAVA_HOME/bi
2018-04-20 14:14:51 649
原创 设置Mapper数量与各节点container数量
container数目设置RM的内存资源配置,主要是通过下面的两个参数进行的(这两个值是Yarn平台特性,应在yarn-site.xml中配置好):yarn.scheduler.minimum-allocation-mbyarn.scheduler.maximum-allocation-mb说明:单个容器可申请的最小与最大内存,应用在运行申请内存时不能超过最大值,小于最小值则分配最小值,从这个角度...
2018-04-20 13:45:42 4762
原创 软连接与硬链接
软连接:ln -s 带箭头,大小与原文件不一样硬链接:ln 没有箭头,大小与原文件一样原文件重命名后,软连接找不到原文件,硬链接无影响;原文件内容更改时,两种连接的内容都会更改...
2018-04-20 13:38:51 121
原创 CM及CDH升级至5.7.0
准备升级所需文件(参照安装文档)http://192.168.50.100/cm5.7.0/ http://192.168.50.100/cdh5.7.0/ 查看内核版本uname -r需在2.6.32-504.16.2以上升级:rpm -uvh kernel-firmware-2.6.32-573.el6.noarch.rpmrpm -uvh kernel-
2018-04-20 11:34:52 477
原创 CM5.7.0 - CDH5.7.0安装
CM5.7.0 - CDH5.7.0的安装配置 0、依赖安装: 升级内核:rpm -uvh kernel-firmware-2.6.32-573.el6.noarch.rpmrpm -uvh kernel-2.6.32-573.el6.x86_64.rpm重启机器 添加依赖包:python-psycopg2rpm -ivh python-psycopg2
2018-04-20 11:03:21 1109
原创 通俗易懂机器学习
机器学习 前言 机器学习是什么,是用来干什么的?机器学习就是样本中有大量的x(特征量)和y(目标变量)然后求这个function。机器学习是让机器寻找函数Y=f(X)的过程,使得当我们给定一个X时,会返回我们想要得到的Y值。例: 房价预测:X:位置、层数 -> Y:xxxx元/平相亲预测:X:高富帅、矮矬穷 -> Y:见、不见车牌识别...
2018-04-20 10:48:32 1945
oracle11g-el7依赖
2018-06-21
python连接oracle包
2018-04-23
gcc安装依赖包
2018-04-23
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人