自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

DT

科技改变世界,技术改变人生。

  • 博客(530)
  • 资源 (3)
  • 论坛 (1)
  • 收藏
  • 关注

原创 共享优秀博文及书单

(文中的链接需要右键,在新的窗口打开,csdn不知道搞什么,直接点开提示"该网址内容存在未知风险",网址链接根本没有安全问题)网上的优秀教程及书籍有很多,之前一直使用收藏夹方式收藏,后来发现越来越多,导致优秀的教程自己也找不到了,本着共享精神,以后将优秀的教程链接及书单名称全部整理到这里,便于自己查找,也共享给其他朋友,共用进步,书单只提供书的名字,建议大家购买正版图书,如果此文有内容侵犯到作...

2017-03-12 10:03:16 1197

原创 推荐展示:信息流列表的刷新和加载

在信息流推荐业务中,用户浏览过程中涉及到上拉和下拉动作,下文解决如何实现相关操作。问:上拉加载和下拉刷新,请求的数据有什么不同?答:这是个概念性问题,上拉加载为刷新,下拉加载为分页。(是不是读起来感觉有点怪怪的)这其实也是一个表达习惯或认知问题,就像左滑/右滑、南风/北风一样。(南风是从南方吹来的风,气象上把风吹来的方向确定为风的方向。)比如同事告诉你在APP上“往下滑,找到某某发来的消息”,但此时你的动作却是向上滑。另一个场景是在PC端拖动滚动条浏览长页面,当我们希望向下浏览时,是向下拖动滚动条

2020-11-12 11:58:31 81 2

原创 Python实现基于用户的协同过滤推荐

协同过滤推荐系统在我们的日常生活之中无处不在,例如,在电子商城购物,系统会根据用户的记录或者其他的信息来推荐相应的产品给客户,是一种智能的生活方式。之所以叫协同过滤,是因为在实现过滤推荐的时候是根据其他人的行为来做预测的,基于相似用户的喜好来实现用户的喜好预测。简要介绍: 通过找到兴趣相投,或者有共同经验的群体,来向用户推荐感兴趣的信息。举例,如何协同过滤,来对用户A进行电影推荐?答:简要步骤如下找到用户A(user_id_1)的兴趣爱好 找到与用户A(user_id_1)...

2020-10-12 18:45:07 82

原创 使用Gensim模块训练词向量

如果在以词为基本单元输入的自然语言处理任务中,都避免不了使用词的表示,词的表示有很多种,这里主要介绍的就是词向量,word2vec是目前比较通用的训练词向量的工具,使用Gensim模块,可以使词向量的训练变的简单,那么我们知道对于word2vec来说,不论的Skip-Gram models还是CBOW models,他们的输入以及输出都是以单词为基本单位的,只是他们对应的输入以及输出不一样:CBOW models:输入为多个上下文单词,输出目标为一个单词;Skip-Gram models:输入为单个词

2020-08-20 19:34:34 190

原创 Pyspark Word2Vec + jieba 训练词向量流程

摘要:用商品描述为语料库训练商品词向量为例,分享一下用pyspark自带word2vec+jieba分词训练词向量的流程.工具:python,pyspark,jieba,pandas,numpy数据格式:自定义词典,语料库均为pyspark dataframe,停用辞典不大,直接使用txt.1 create spark我的pyspark参数设置如下:def create_spark(): sparkconf = SparkConf('jianwangzhilai') \

2020-08-13 20:15:20 138

原创 Pyspark机器学习之Word2Vec(推荐系统内容相似)

Word2Vec简介Word2Vec是一个词嵌入方法,可以计算每个单词在给定的语料库环境下的分布式向量,如果两个单词的语义相近,那么词向量在向量空间中也相互接近,判断向量空间的接近程度来判断来两个单词是否相似。Word2Vec数学原理首先导入Word2Vec所需要的包,并创建可以代表文档的词语序列from pyspark.ml.feature import Word2Vecfrom pyspark.sql import SparkSessionspark= SparkSession

2020-08-13 20:07:19 172

原创 Spark调优:提交job资源参数调优及内存模型调优

【场景】Spark提交作业job的时候要指定该job可以使用的CPU、内存等资源参数,生产环境中,任务资源分配不足会导致该job执行中断、失败等问题,所以对Spark的job资源参数分配调优非常重要。spark提交作业,yarn-cluster模式示例:./bin/spark-submit\--class com.ww.rdd.wordcount \--master yarn \--deploy-mode cluster \--executor-memory 4G \--num.

2020-06-23 17:39:09 137

原创 pyspark提交代码到yarn模式,报错ImportError: No module

上一篇:PySpark任务在YARN集群上运行 关联python包numpy pandas scipy 等问题:在提交ALS.train代码到yarn模式的时候,会出现如下报错:import numpy as npImportError: No module named numpy说pandas的的dependency numpy包不存在,但事实上install pandas时,numpy必定是已经装过的,所以就到处找,应该是环境没有设置解决方式:1. 创建虚拟python环境.

2020-06-23 15:20:45 272

原创 Spark ALS 协同过滤(CF)如何将Str类型的userID或itemID转换为Rating中要求的int类型

/*** 问题:* 在对数据进行训练时,Rating要求的是int,int,double,但是现有的数据是long,string,double类 型,使用toInt进行转换时依然会报错,这是因为long类型转换成int类型已经超出了int的最大值。** 解决思路:* 创建两张映射表,将long类型的字段映射成int类型(使用row_number()添加自增序列),然后拿映射的* 字段进行训练,训练完成后,再将映射的字段转换成原有字段,而后进行推荐。*...

2020-06-09 11:48:45 246

原创 spark DataFrame 基本操作函数

DataFrame 的函数Action 操作1、 collect() ,返回值是一个数组,返回dataframe集合所有的行2、 collectAsList() 返回值是一个Java类型的数组,返回dataframe集合所有的行3、 count() 返回一个number类型的,返回dataframe集合的行数4、 describe(cols: String*) 返回一个通过数学计算的类表值(count, mean, stddev, min, and max),这个可以传多个参数,中间用逗号分隔,如果

2020-06-09 11:34:37 220

原创 SuperSet logo修改、导出csv中文乱码、sql查询超时问题解决(默认30s)问题处理

一、网页标题及logo修改1、网页标题修改vi /root/anaconda3/envs/super/lib/python3.6/site-packages/superset/views/core.pyreturn self.render_template('superset/basic.html',entry='welcome',title='Superset',bootstrap_data=json.dumps(payload, default=utils.json_iso_dttm_

2020-05-25 11:56:09 200

原创 在广告/搜索/推荐系统中 对展示结果打散的通用鲁棒算法

摘要:之所以同时提到广告/搜索/推荐三个系统,是因为这三者有一定的相似性,即通过一次请求(基于上下文、用户场景、关键词等)给用户呈现一篮子元素,这些元素包括如文章、商品、活动、专辑、音乐、视频等等。这一篮子需要展示的元素尽管是根据权重进行过排序,但一个很常见的问题就是基于视觉效果的考虑需对这个列表进行类别打散,最常见的一个例子是在电商领域,对推荐的商品进行类目/品牌等属性打散开,从而增加阅读舒适性...

2020-04-10 22:17:30 659

原创 superset配置LDAP(MSFT AD)

superset配置ldap这块调试了好久,一直不能配置通,各种查,网上一些教程都是针对openldap的设置,我这边ldap服务器是微软的MSFT AD,最后也是结合网上的信息各种尝试,终于调试通了,特此单独记录一下,帮助需要的朋友。superset安装篇:Linux下安装Superset实践1、安装LDAP依赖pip install Flask-LDAP2、修改配置(supe...

2020-04-02 14:56:43 514 4

原创 使用钉钉机器人对业务异常进行告警(Linux)

添加钉钉机器人目前个人已知的钉钉机器人只能存在于钉钉群,钉钉群的建群需求是至少 3 人,当然,你建群之后可以把其它人请出去。【1】首先,我们进入一个钉钉群创建我们的机器人:【2】目前钉钉已经存在了一些项目的机器人,你可以根据自己的选,当然,我们本次就用自定义的,添加一个名为 HELLO ROBOT 机器人:安全设置目前有3种方式:(1)方式一,自定义关键词(最简单的方...

2020-03-26 11:47:00 1617

原创 Linux下安装Superset实践

一、安装conda create --name super python=3.6yum install gcc gcc-c++ libffi-devel python-devel python-pip python-wheel openssl-devel libsasl2-devel openldap-devel根据官方文档操作,在执行到fabmanager create-admi...

2020-03-17 18:42:09 836

原创 通过Spark访问Hbase的Hive外部表(hive on hbase的表)

业务处理的过程中,使用到pyspark访问hive,直接访问没有问题,后面遇到使用pyspark访问hive关联hbase的表(hive on hbase),就出现报错了。首先集群已经可以通过spark-sql读取hive的数据,然后进行如下配置。1.拷贝如下jar包到${spark_home}/jars(spark2.0之前是${spark_home}/lib): hba...

2020-02-24 15:16:05 783

原创 pyspark读取hive数据写入到redis

1、首先把redis包引入工程,这样就不需要在集群里每台机器上安装redis客户端。$pip install redis$cd /usr/local/lib/python3.6/dist-packages/ 找到自己环境的路径$zip -r redis.zip redis/*$hadoop fs -put redis.zip /user/data/2、在代码里使用 addPyFile加...

2020-02-19 10:57:55 1218

原创 推荐系统排序算法的演进

在分析用户推荐系统程序排序算法之前,我们先介绍下推荐系统中的数据的特点,排序算法就是针对这种数据特点设计了不同的解决方案,才有了推荐算法的发展。首先我们先重点介绍下推荐系统中数据的几个鲜明特点:1、数据主要以离散数据为主,连续数据为辅,其中推荐系统中产生的核心数据绝大部分都是离散数据,所以推荐系统中排序算法就是要怎么解决大规模离散特征的学习;2、样本收集有限,物品在场景中的出现次数是有...

2020-01-21 09:34:55 545

原创 Linux CentOS7安装Hive2.3并配置sparkSQL访问Hive

一、安装mysqlyum install wgetwget http://repo.mysql.com/mysql-community-release-el7-5.noarch.rpmrpm -ivh mysql-community-release-el7-5.noarch.rpmyum install mysql-server启动mysqlservice mysqld ...

2020-01-13 19:23:50 184

原创 Spark ALS算法理解

ALS算法ALS的意思是交替最小二乘法(Alternating Least Squares),它只是是一种优化算法的名字,被用在求解spark中所提供的推荐系统模型的最优解。spark中协同过滤的文档中一开始就说了,这是一个基于模型的协同过滤(model-based CF),其实它是一种近几年推荐系统界大火的隐语义模型中的一种。隐语义模型又叫潜在因素模型,它试图通过数量相对少的未被观察到的底层原...

2020-01-09 14:14:08 434

原创 pyspark读取hive数据实例

使用pyspark读取hive中的数据,测试代码:vi test.py#!-*- coding:utf-8 -*-from pyspark import SparkConf, SparkContextfrom pyspark.sql import HiveContextconf = (SparkConf().setMaster("yarn").setAppName("My ap...

2020-01-07 17:48:01 3499

原创 model.save(sc,'fname')异常Exception in thread "dag-scheduler-event-loop" java.lang.StackOverflowError

最近在使用pyspark保存model的时候出现Exception in thread "dag-scheduler-event-loop" java.lang.StackOverflowError报错,网上搜索了一下找下如下解决方案,有效。解决方法:操作步骤一1.连接上提交spark-submit的服务器,输入下面命令,可以看看默认的栈大小,我的是1Mjava -XX...

2020-01-07 15:50:24 229

原创 Redis缓存数据库安装及python读写redis数据

一、安装Redis1.获取redis资源wget http://download.redis.io/releases/redis-4.0.8.tar.gz2.解压tar xzvf redis-4.0.8.tar.gz3.安装cd redis-4.0.8makecd srcmake install PREFIX=/usr/local/redis(如果有执行出...

2019-12-27 19:07:36 107

原创 xgboost中XGBClassifier()参数

#常规参数booster gbtree 树模型做为基分类器(默认) gbliner 线性模型做为基分类器silent silent=0时,输出中间过程(默认) silent=1时,不输出中间过程nthread nthread=-1时,使用全部CPU进行并行运算(默认) nthread=1时,使用1个CPU进行运算。scale_pos_we...

2019-12-24 16:30:33 1309

原创 在Linux Centos7 上使用pyspark Notebook

首先安装anaconda 参考:https://blog.csdn.net/levy_cui/article/details/80898739https://blog.csdn.net/levy_cui/article/details/51143153anaconda安装时已经有了jupyter notebook,所以只需要配置好就可以!一、添加root启动权限如果输入 j...

2019-12-06 11:47:08 171

原创 PySpark任务在YARN集群上运行 关联python包numpy pandas scipy 等

使用pyspark的时候代码会依赖numpy pandas scipy 等,这时候需要将相关的环境包一起提交,如何提交环境包文件,参考如下:Spark Application可以直接运行在YARN集群上,这种运行模式,会将资源的管理与协调统一交给YARN集群去处理,这样能够实现构建于YARN集群之上Application的多样性,比如可以运行MapReduc程序,可以运行HBase集群,也可以...

2019-12-04 11:46:32 476

原创 PCA降维(主成分分析)处理训练集后,线上正式数据应该如何处理?

训练数据集在使用PCA进行数据降维后,用基本分类器进行训练得到一个分类模型,那线上预测真实数据应该怎么办?应该不能直接放入训练的分类模型中去吧?答:当然不能,要用你从训练数据里面得到的那个降维矩阵对测试数据降维,然后再送给分类器。如何理解?如何操作?参考PCA+SVM的模型的保存及使用训练模型的代码,仔细阅读注释内容import numpy as npimport osim...

2019-10-21 20:01:06 1873

原创 GBDT+LR算法进行特征扩增

简介CTR估计也就是广告点击率预估,计算广告训练与平滑思想说明了是用LR算法对于预测的有效性。LR(Logistic Regression)是广义线性模型,与传统线性模型相比,LR通过Logit变换将函数值映射到0~1区间,映射后的函数就是CTR的预估值。LR模型十分适合并行化,因此对于大数据的训练十分有效。但是对于线性模型而言,学习能力是有限的,因此需要大量的特征工程预先分析出有效的特征或者是...

2019-10-14 14:44:15 276

原创 自动机器学习之Auto-Keras入门

对于训练深度学习,设计神经网络结构是其中技术含高最高的任务,优秀的网络架构往往依赖建构模型的经验,专业领域知识,以及大量的算力试错。实际应用中往往基于类似功能的神经网络微调生成新的网络结构。Auto-Keras是一个离线使用的开源库,用于构建神经网络结构和搜索超参数,支持RNN,CNN神经网络,它使用了高效神经网络搜索ENAS,利用迁移学习的原理将在前面任务中学到的权值应用于后期的模型中,效率...

2019-09-29 17:40:18 348

原创 Auto Machine Learning 自动化机器学习笔记

适读人群:有机器学习算法基础1. auto-sklearn 能 auto 到什么地步? 在机器学习中的分类模型中: 常规 ML framework 如下图灰色部分:导入数据-数据清洗-特征工程-分类器-输出预测值 auto部分如下图绿色方框:在ML framework 左边新增 meta-learning,在右边新增 build-ensemble,对于...

2019-09-27 11:50:36 729

原创 自动机器学习之auto-sklearn入门

当我们做完了特征工程之后,就可以代入模型训练和预测,对于模型的选择及调参,主要根据分析者的经验。在具体使用时,经常遇到同一批数据,同一种模型,不同的分析者得出的结果相差很多。前面学习了几种常用的机器学习方法原理以及适用场景,对于完全没有经验的开发者,只要有足够时间,尝试足够多的算法和参数组合,理论上也能达到最优的训练结果,同理程序也能实现该功能,并通过算法优化该过程,自动寻找最优的模型解决方案...

2019-09-27 10:44:50 936

原创 机器学习特征工程经验总结一

这块内容分为两篇文章,有一点长,但内容很实用,建议耐心的看一下。机器学习特征工程经验总结一机器学习特征工程经验总结二--------------------------------------------很多人其实非常好奇BAT里机器学习算法工程师平时工作内容是怎样?其实大部分人都是在跑数据,各种map-reduce,hive SQL,数据仓库搬砖,数据清洗、数据清洗、数据清洗,业务分...

2019-09-05 14:55:01 740

原创 机器学习特征工程经验总结二

机器学习特征工程经验总结一机器学习特征工程经验总结二--------------------------------------------如何做特征处理和构建特征处理和构建一般对以下几种数据类型做处理: 数值型 类别型 时间型 文本型 统计型 组合特征一、数值型1 幅度调整/归一化:python中会有一些函数比如pre...

2019-09-05 14:44:34 482

原创 特征构建:生成多项式特征

解释下特征构建、特征抽取和特征选择:1、当数据拿到手里后,首先需要从现有数据中挑选或将现有数据进行变形,组合形成新特征,此过程称为特征构建。2、当特征维度比较高,通过映射或变化的方式,用低维空间样本来表示样本,称为特征抽取。3、从一组特征中挑选出一些最有效的特征,以达到降低维度和降低过拟合风险的目的,称为特征选择。机器学习,一些比赛竞赛中,通常会给一定的特征数据进行分类或者回归预测。有...

2019-09-05 14:30:13 416

原创 Keras CNN图像实战

Cifar-10Cifar-10是由Hinton的两个大弟子Alex Krizhevsky、Ilya Sutskever收集的一个用于普适物体识别的数据集。Cifar-10由60000张32*32的RGB彩色图片构成,共10个分类。50000张训练,10000张测试(交叉验证)。这个数据集最大的特点在于将识别迁移到了普适物体,而且应用于多分类(姐妹数据集Cifar-100达到100类,ILSV...

2019-08-14 17:28:43 236

原创 keras推荐算法--矩阵分解实战

(实践操作过程中,如果数据量超大,单机会出现内存溢出报错,无法正常运行,建议先用少量进行测试实现)当今这个信息爆炸的社会,每个人都会面对无数的商品,无数的选择。而推荐算法的目的帮助大家解决选择困难症的问题,在大千世界中推荐专属于你的商品。推荐系统算法简介这里简单介绍下推荐系统中最为主要的协同过滤算法,大致分为如下几类:基于用户的协同过滤(给用户推荐与他相似的人购买的物品) 基于商品...

2019-08-02 17:13:08 742

原创 GBDT+LR算法入门理解

CTR估计也就是广告点击率预估,计算广告训练与平滑思想说明了是用LR算法对于预测的有效性。LR(Logistic Regression)是广义线性模型,与传统线性模型相比,LR通过Logit变换将函数值映射到0~1区间,映射后的函数就是CTR的预估值。LR模型十分适合并行化,因此对于大数据的训练十分有效。但是对于线性模型而言,学习能力是有限的,因此需要大量的特征工程预先分析出有效的特征或者是特征组...

2019-06-04 14:54:35 3067

原创 Keras模型使用GridSearchCV自动调参

最近使用keras调整参数,使用到自动调参,从网上找到一些资料,主要使用scikit-learn中GridSearchCV进行自动搜索最优参数,很实用分享到这里,帮助需要的朋友。Grid search 是一种最优超参数的选择算法,实际就是暴力搜索。首先设定参数的候选值,然后穷举所有参数组合,根据评分机制,选择最好的那一组设置在scikit-learn中,类GridSearchCV可以为我们实...

2019-04-18 15:43:09 2130 5

转载 未来金融行业建模趋势:联邦迁移学习

看过这篇文章后,觉得联邦学习是金融行业未来建模趋势,转载在这里,分享给大家人工智能在最近的一两年来是一个炙手可热的词汇。AI在图像分类、语音识别、文本分析、计算机视觉、自然语言处理、自动驾驶等方面,大量的人工智能和机器学习模型确实在让我们的生活变得更加方便快捷。从技术上讲,目前绝大多数的AI,其实都是基于统计学的一些机器学习方法在发挥作用。而机器学习的核心,则是强调让算法能够自动地基于给...

2019-03-21 10:19:49 3690

原创 分享机器学习入门课件

分享一个最近培训的课件 -- 机器学习入门,很实用

2019-03-15 17:46:50 1414 2

Python深度学习(Deep Learning With Python中文版)

本书由Keras之父、现任Google人工智能研究员的弗朗索瓦•肖莱(François Chollet)执笔,详尽介绍了用Python和Keras进行深度学习的探索实践,包括计算机视觉、自然语言处理、产生式模型等应用。书中包含30多个代码示例,步骤讲解详细透彻。由于本书立足于人工智能的可达性和大众化,读者无须具备机器学习相关背景知识即可展开阅读。在学习完本书后,读者将具备搭建自己的深度学习环境、建立图像识别模型、生成图像和文字等能力。

2018-09-29

Spark大数据分析核心概念技术及实践OCR 中文

Spark大数据分析核心概念技术及实践,深度讲解使用spark技术对大数据进行分析,并给出实践案例

2018-09-29

hadoop权威指南第二版中文

hadoop,hadoop权威指南,大数据

2016-04-08

levy_cui的留言板

发表于 2020-01-02 最后回复 2020-01-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除