自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

DT

科技改变世界,技术改变人生。

原创 共享优秀博文及书单

(文中的链接需要右键,在新的窗口打开,csdn不知道搞什么,直接点开提示"该网址内容存在未知风险",网址链接根本没有安全问题) 网上的优秀教程及书籍有很多,之前一直使用收藏夹方式收藏,后来发现越来越多,导致优秀的教程自己也找不到了,本着共享精神,以后将优秀的教程链接及书单名称...

2017-03-12 10:03:16 1114 0

原创 SuperSet logo修改及导出csv中文乱码问题处理

一、网页标题及logo修改 1、网页标题修改 vi /root/anaconda3/envs/super/lib/python3.6/site-packages/superset/views/core.py return self.render_template( 'superset...

2020-05-25 11:56:09 7 0

原创 在广告/搜索/推荐系统中 对展示结果打散的通用鲁棒算法

摘要:之所以同时提到广告/搜索/推荐三个系统,是因为这三者有一定的相似性,即通过一次请求(基于上下文、用户场景、关键词等)给用户呈现一篮子元素,这些元素包括如文章、商品、活动、专辑、音乐、视频等等。这一篮子需要展示的元素尽管是根据权重进行过排序,但一个很常见的问题就是基于视觉效果的考虑需对这个列表...

2020-04-10 22:17:30 206 0

原创 superset配置LDAP(MSFT AD)

superset配置ldap这块调试了好久,一直不能配置通,各种查,网上一些教程都是针对openldap的设置,我这边ldap服务器是微软的MSFT AD,最后也是结合网上的信息各种尝试,终于调试通了,特此单独记录一下,帮助需要的朋友。 superset安装篇:Linux下安装Superset实...

2020-04-02 14:56:43 84 0

原创 使用钉钉机器人对业务异常进行告警(Linux)

添加钉钉机器人 目前个人已知的钉钉机器人只能存在于钉钉群,钉钉群的建群需求是至少 3 人,当然,你建群之后可以把其它人请出去。 【1】首先,我们进入一个钉钉群创建我们的机器人: 【2】目前钉钉已经存在了一些项目的机器人,你可以根据自己的选,当然,我们本次就用自定义的,添加一个名为 HEL...

2020-03-26 11:47:00 495 0

原创 Linux下安装Superset实践

一、安装 conda create --name super python=3.6 yum install gcc gcc-c++ libffi-devel python-devel python-pip python-wheel openssl-devel libsasl2-devel ...

2020-03-17 18:42:09 287 0

原创 通过Spark访问Hbase的Hive外部表(hive on hbase的表)

业务处理的过程中,使用到pyspark访问hive,直接访问没有问题, 后面遇到使用pyspark访问hive关联hbase的表(hive on hbase),就出现报错了。 首先集群已经可以通过spark-sql读取hive的数据,然后进行如下配置。 1.拷贝如下jar包到${spark_...

2020-02-24 15:16:05 309 0

原创 pyspark读取hive数据写入到redis

1、首先把redis包引入工程,这样就不需要在集群里每台机器上安装redis客户端。 $pip install redis $cd /usr/local/lib/python3.6/dist-packages/ 找到自己环境的路径 $zip -r redis.zip redis/* $hadoop...

2020-02-19 10:57:55 312 0

原创 推荐系统排序算法的演进

在分析用户推荐系统程序排序算法之前,我们先介绍下推荐系统中的数据的特点,排序算法就是针对这种数据特点设计了不同的解决方案,才有了推荐算法的发展。 首先我们先重点介绍下推荐系统中数据的几个鲜明特点: 1、数据主要以离散数据为主,连续数据为辅,其中推荐系统中产生的核心数据绝大部分都是离散数据,所以...

2020-01-21 09:34:55 191 0

原创 Linux CentOS7安装Hive2.3并配置sparkSQL访问Hive

一、安装mysql yum install wget wget http://repo.mysql.com/mysql-community-release-el7-5.noarch.rpm rpm -ivh mysql-community-release-el7-5.noarch.rpm y...

2020-01-13 19:23:50 86 0

原创 Spark ALS算法理解

ALS算法 ALS的意思是交替最小二乘法(Alternating Least Squares),它只是是一种优化算法的名字,被用在求解spark中所提供的推荐系统模型的最优解。spark中协同过滤的文档中一开始就说了,这是一个基于模型的协同过滤(model-based CF),其实它是一种近几年推...

2020-01-09 14:14:08 145 0

原创 pyspark读取hive数据实例

使用pyspark读取hive中的数据,测试代码: vi test.py #!-*- coding:utf-8 -*- from pyspark import SparkConf, SparkContext from pyspark.sql import HiveContext conf...

2020-01-07 17:48:01 1140 0

原创 model.save(sc,'fname')异常Exception in thread "dag-scheduler-event-loop" java.lang.StackOverflowError

最近在使用pyspark保存model的时候出现Exception in thread "dag-scheduler-event-loop" java.lang.StackOverflowError报错, 网上搜索了一下找下如下解决方案,有效。 解决方法: 操作步骤一...

2020-01-07 15:50:24 80 0

原创 Redis缓存数据库安装及python读写redis数据

一、安装Redis 1.获取redis资源 wget http://download.redis.io/releases/redis-4.0.8.tar.gz 2.解压 tar xzvf redis-4.0.8.tar.gz 3.安装 cd redis-4.0.8 make cd...

2019-12-27 19:07:36 59 0

原创 xgboost中XGBClassifier()参数

#常规参数 booster gbtree 树模型做为基分类器(默认) gbliner 线性模型做为基分类器 silent silent=0时,输出中间过程(默认) silent=1时,不输出中间过程 nthread nthread=-1时,使用全部CPU...

2019-12-24 16:30:33 411 0

原创 在Linux Centos7 上使用pyspark Notebook

首先安装anaconda 参考: https://blog.csdn.net/levy_cui/article/details/80898739 https://blog.csdn.net/levy_cui/article/details/51143153 anaconda安装时已经有了ju...

2019-12-06 11:47:08 86 0

原创 PySpark任务在YARN集群上运行 关联python包numpy pandas scipy 等

使用pyspark的时候代码会依赖numpy pandas scipy 等,这时候需要将相关的环境包一起提交,如何提交环境包文件,参考如下: Spark Application可以直接运行在YARN集群上,这种运行模式,会将资源的管理与协调统一交给YARN集群去处理,这样能够实现构建于YARN集...

2019-12-04 11:46:32 196 0

原创 PCA降维(主成分分析)处理训练集后,线上正式数据应该如何处理?

训练数据集在使用PCA进行数据降维后,用基本分类器进行训练得到一个分类模型,那线上预测真实数据应该怎么办?应该不能直接放入训练的分类模型中去吧? 答:当然不能,要用你从训练数据里面得到的那个降维矩阵对测试数据降维,然后再送给分类器。 如何理解?如何操作? 参考PCA+SVM的模型的保存及使用 ...

2019-10-21 20:01:06 591 0

原创 GBDT+LR算法进行特征扩增

简介 CTR估计也就是广告点击率预估,计算广告训练与平滑思想说明了是用LR算法对于预测的有效性。LR(Logistic Regression)是广义线性模型,与传统线性模型相比,LR通过Logit变换将函数值映射到0~1区间,映射后的函数就是CTR的预估值。LR模型十分适合并行化,因此对于大数据的...

2019-10-14 14:44:15 118 0

原创 自动机器学习之Auto-Keras入门

对于训练深度学习,设计神经网络结构是其中技术含高最高的任务,优秀的网络架构往往依赖建构模型的经验,专业领域知识,以及大量的算力试错。实际应用中往往基于类似功能的神经网络微调生成新的网络结构。 Auto-Keras是一个离线使用的开源库,用于构建神经网络结构和搜索超参数,支持RNN,CNN神经网络...

2019-09-29 17:40:18 141 0

原创 Auto Machine Learning 自动化机器学习笔记

适读人群:有机器学习算法基础1. auto-sklearn 能 auto 到什么地步? 在机器学习中的分类模型中: 常规 ML framework 如下图灰色部分:导入数据-数据清洗-特征工程-分类器-输出预测值 auto部分如下图绿色方框:在ML framework 左边新增 met...

2019-09-27 11:50:36 261 0

原创 自动机器学习之auto-sklearn入门

当我们做完了特征工程之后,就可以代入模型训练和预测,对于模型的选择及调参,主要根据分析者的经验。在具体使用时,经常遇到同一批数据,同一种模型,不同的分析者得出的结果相差很多。 前面学习了几种常用的机器学习方法原理以及适用场景,对于完全没有经验的开发者,只要有足够时间,尝试足够多的算法和参数组合,...

2019-09-27 10:44:50 339 0

原创 机器学习特征工程经验总结一

这块内容分为两篇文章,有一点长,但内容很实用,建议耐心的看一下。 机器学习特征工程经验总结一机器学习特征工程经验总结二 -------------------------------------------- 很多人其实非常好奇BAT里机器学习算法工程师平时工作内容是怎样?其实大部分人都是在...

2019-09-05 14:55:01 322 0

原创 机器学习特征工程经验总结二

机器学习特征工程经验总结一机器学习特征工程经验总结二 -------------------------------------------- 如何做特征处理和构建 特征处理和构建一般对以下几种数据类型做处理: 数值型 类别型 时间型 文本型 统计型 组合特征 一、数...

2019-09-05 14:44:34 291 0

原创 特征构建:生成多项式特征

解释下特征构建、特征抽取和特征选择: 1、当数据拿到手里后,首先需要从现有数据中挑选或将现有数据进行变形,组合形成新特征,此过程称为特征构建。 2、当特征维度比较高,通过映射或变化的方式,用低维空间样本来表示样本,称为特征抽取。 3、从一组特征中挑选出一些最有效的特征,以达到降低维度和降低过拟合风...

2019-09-05 14:30:13 258 0

原创 Keras CNN图像实战

Cifar-10 Cifar-10是由Hinton的两个大弟子Alex Krizhevsky、Ilya Sutskever收集的一个用于普适物体识别的数据集。Cifar-10由60000张32*32的RGB彩色图片构成,共10个分类。50000张训练,10000张测试(交叉验证)。这个数据集最大...

2019-08-14 17:28:43 122 0

原创 keras推荐算法--矩阵分解实战

(实践操作过程中,如果数据量超大,单机会出现内存溢出报错,无法正常运行,建议先用少量进行测试实现) 当今这个信息爆炸的社会,每个人都会面对无数的商品,无数的选择。而推荐算法的目的帮助大家解决选择困难症的问题,在大千世界中推荐专属于你的商品。 推荐系统算法简介 这里简单介绍下推荐系统中最为主要的...

2019-08-02 17:13:08 306 0

原创 GBDT+LR算法入门理解

CTR估计也就是广告点击率预估,计算广告训练与平滑思想说明了是用LR算法对于预测的有效性。LR(Logistic Regression)是广义线性模型,与传统线性模型相比,LR通过Logit变换将函数值映射到0~1区间,映射后的函数就是CTR的预估值。LR模型十分适合并行化,因此对于大数据的训练十...

2019-06-04 14:54:35 2063 0

原创 Keras模型使用GridSearchCV自动调参

最近使用keras调整参数,使用到自动调参,从网上找到一些资料,主要使用scikit-learn中GridSearchCV进行自动搜索最优参数,很实用分享到这里,帮助需要的朋友。 Grid search 是一种最优超参数的选择算法,实际就是暴力搜索。首先设定参数的候选值,然后穷举所有参数组合,根...

2019-04-18 15:43:09 1198 2

转载 未来金融行业建模趋势:联邦迁移学习

看过这篇文章后,觉得联邦学习是金融行业未来建模趋势,转载在这里,分享给大家 人工智能在最近的一两年来是一个炙手可热的词汇。AI在图像分类、语音识别、文本分析、计算机视觉、自然语言处理、自动驾驶等方面,大量的人工智能和机器学习模型确实在让我们的生活变得更加方便快捷。从技术上讲,目前绝大多数的A...

2019-03-21 10:19:49 2445 0

原创 分享机器学习入门课件

分享一个最近培训的课件 -- 机器学习入门,很实用

2019-03-15 17:46:50 870 2

转载 给那些仍旧在公司混日子的人--周鸿祎

网上有热心的朋友帮我整理了一个交流谈话,我已经记不得具体是什么时候在什么场合讲的,但都是至今我想对一些朋友说的真心话:你混日子,就是日子混你,你自己是输家。 1、我自己当年,无论我在方正给国家打工,还是我在雅虎给外国人打工,我都跟别人最大的不一样,我从来不觉得我在给他们打工,我真的可能是很有自信...

2019-03-12 12:29:53 587 0

原创 机器学习:数据归一化方法

理解一: 一、为什么要进行数据归一化 原则:样本的所有特征,在特征空间中,对样本的距离产生的影响是同级的; 问题:特征数字化后,由于取值大小不同,造成特征空间中样本点的距离会被个别特征值所主导,而受其它特征的影响比较小; 例:特征1 = [1, 3, 2, 6, 5, 7, 9],特征2 ...

2019-03-06 15:54:28 205 0

转载 深度学习四大经典书籍

我们都知道现在机器学习、深度学习的资料太多了,面对海量资源,往往陷入到“无从下手”的困惑出境。而且并非所有的书籍都是优质资源,浪费大量的时间是得不偿失的。今天,给大家推荐这四本好书。 1. 《Deep Learning with Python》 推荐指数:★★★★☆ 本书自出版以来收到众多...

2019-02-18 10:05:17 6150 0

转载 样本类别不平衡问题之SMOTE算法(Python imblearn极简实现)

类别不平衡问题        类别不平衡问题,顾名思义,即数据集中存在某一类样本,其数量远多于或远少于其他类样本,从而导致一些机器学习模型失效的问题。例如逻辑回归即不适合处理类别不平衡问题,例如逻辑回归在欺诈检测问题中,因为绝大多数样本都为正常样本,欺诈样本很少,逻辑回归算法会倾向于把大多数样本...

2019-01-30 18:17:26 2649 2

原创 python写入excel超过65536行报错问题解决方法

接此篇文章:python将txt文件转为excel格式 上篇文章中将内容写到excel中使用import xlwt包,后来发现文件写入超过65536行的时候就会报错,无法转换成功, xls后缀文件,只支持这么多行,在网上搜索一下,解决方法可以写多个sheet页,但不是我想要的方式, 后来后搜...

2019-01-22 10:42:34 4525 3

转载 Keras用11行代码构建CNN

卷积神经网络(CNN)是一种特殊的深层的神经网络模型,为什么说它是特殊的神经网络模型呢?一是它的神经元间的连接是非全连接的,另一点是因为同一层中某些神经元之间的连接的权重是共享的。它的这些特点成功的降低了网络模型的复杂度以及减少了权值的数量,这也使得它的网络结构更类似于生物神经网络。今天我们就来用...

2019-01-03 10:52:25 330 0

原创 keras 中的参数属性解释(持续更新)

keras使用过程中会有很多参数及属性,现将日常会用到的做下详解,自己做记录的同时,帮忙其他朋友更好的理解。 一、keras 中的 verbose 详解 fit 中的 verbose verbose:日志显示 verbose = 0 为不在标准输出流输出日志信息 verbose = 1 为输...

2018-12-29 17:03:45 1271 1

原创 Linux Anaconda配置Jupyter Notebook远程访问

前面我们安装过Anaconda了,参考 1. 安装ipython, jupyter pip install ipython pip install jupyter 2.生成配置文件 dm@zerotech-All-Series:~$ jupyter notebook --gener...

2018-12-10 16:33:32 1286 0

原创 dokuwiki安装方法--适合部门团队共享信息使用

团队之间共享一些信息,每个人都可以看到,使用dokuwiki非常方便、简洁。 确保一下相依套件已经安装 (如未安装 用 yum install 安裝即可 ) yum install  gcc-c++ make expat-devel perl curl-devel libxml2-devel l...

2018-11-28 16:20:11 4107 0

提示
确定要删除当前文章?
取消 删除