自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 排序模型-wide & deep learn

文章目录排序模型-wide & deep learnTFrecord 保存数据使用wide & deep 深度模型进行预测排序模型-wide & deep learnTFrecord 保存数据mport tensorflow as tfdef write_to_tfrecords(click_batch, feature_batch): """ 将数据存进tfrecords,方便管理每个样本的属性 :param image_ba

2021-02-07 18:02:46 146

原创 使用CTR评估

文章目录使用LR模型对CTR进行预估进行行为日志数据读取用户画像读取处理与日志数据合并(3)文章频道与向量读取合并,删除无用的特征,合并文章画像的权重特征(4)进行用户的权重特征筛选处理,类型处理使用LR模型对CTR进行预估import osimport sys# 如果当前代码文件运行测试需要加入修改路径,避免出现后导包问题BASE_DIR = os.path.dirname(os.path.dirname(os.getcwd()))sys.path.insert(0, os.path.join

2021-02-02 19:35:21 249

原创 基于模型的召回

文章目录初始化信息初始化信息import osimport sys# 如果当前代码文件运行测试需要加入修改路径,避免出现后导包问题BASE_DIR = os.path.dirname(os.path.dirname(os.getcwd()))sys.path.insert(0, os.path.join(BASE_DIR))PYSPARK_PYTHON = "/miniconda2/envs/reco_sys/bin/python"# 当存在多个版本时,不指定很可能会导致出错os.env

2021-02-02 18:35:14 139

原创 用户画像

文章目录用户行为日志用户画像计算用户行为日志1、创建HIVE基本数据表create table user_article_basic(user_id BIGINT comment "userID",action_time STRING comment "user actions time",article_id BIGINT comment "articleid",channel_id INT comment "channel_id",shared BOOLEAN comment "is s

2021-02-01 19:39:13 169

原创 智能供应链分析

文章目录项目背景项目工作内容供应链数据探索对用户进行分层对欺诈订单进行预测对于迟交订单进行预测对销售额进行预测对订单数量进行预测读取数据对数据进行探索及数据清洗统计为空的值数据相关性统计(使用皮尔森系数)项目背景项目工作内容供应链数据探索数据空置处理:确实值设置为 0数据特征相似度:使用皮尔森系数对数据进行初步探索:按照不同的市场,销售区域进行探索按照不同的类别进行探索按照不同的时间维度趋势对用户进行分层使用RFM对用户进行分层统计最后一笔的时间R_value计算用户总购

2021-01-22 20:09:37 511

原创 离线文章画像计算--

文章目录环境配置画像构建内容:文章画像用户画像离线文章画像原始文章数据的合并创建spark初始化相关配置合并计算环境配置启动mysql(在Master节点执行)进入到mysql启动容器:systemctl start docker启动mysql容器:docker start mysql进去到mysql容器:docker exec -it mysql bash进入到mysql数据库:mysql -uroot -ppassword启动大数据hadoop : cd /root/big

2020-11-12 23:27:26 317

原创 离线画像业务介绍

文章目录离线文章画像离线文章画像组成需求步骤原始文章表数据的合并TFIDF 计算离线文章画像离线文章画像组成需求文章:频道ID内容,关键词、主题词主题词与关键词最大的区别就是主题词经过了规范化处理。关键词:文章中一些词的权重高的。主题词:是进行规范化处理的,文章中出现的同义词,计算结果出现次数高的词。关键词:TEXTRANK计算出的结果TOPK个词以及权重主题词:TEXTRANK的TOPK词 与 ITFDF计算的TOPK个词的交集步骤原始文章表数据合并得到文章所有的词语句信息文章标

2020-10-22 23:00:55 137

原创 deep learning-RNN

文章目录RNNLSTMRNNRNN是为了使网络具有记忆功能,为了实现这一目标,学习过程是把序列中的元素一个一个输入给网络进行学习,与DNN不同的是,RNN在进行学习时,把序列中的前一输入对应的隐藏层输出进行保存并作为本次输入的一部分与序列中本次输入的元素一起送入网络。在上述例子中,输入一共有三个序列每次读入序列中的一个元素,最终得到的三个序列为以序列中的第一个元素为例,初始化memory中的值为0,输入第一个元素后,如果所有权重均为1,那么第一个隐藏层输出为[2,2],之后,一方面,把

2020-09-22 08:33:03 128

原创 deeplearning-transfer learning

文章目录transfer learningZero-shot learningtransfer learning语音识别是固定输出的layer(离output进的layers)调整输入的layersimage相反单独训练Task1 Task2 Task3 ,先训练Task1,得到的隐藏层结果作为Task2 Task3的输入,但在Task2 Task3 训练时,不更新Task1的输出值。只有source data的feature和label,target data只有特征,没有lab

2020-09-20 21:04:05 107

原创 unsupervise learning-dimension reduction

文章目录PCAMatrix FactorizationWord Embeddingt-SNEPCA目标是找到一个向量w1,所有数据点x在w1上的投影,得到z1,希望得到z1的方差越大越好,即越分散越好,越分散越有利于进行数据的分类PCA缺点:由于是非监督学习,在确定向量时,希望所有数据投影到向量上的值为离散值,但是由于数据没有label,如果数据为两个分类,那么经过降维之后,数据会混在一起无法分别是线性(linear)模型,在进行数据降维时有些数据高维数据经过投影会混在一起。如上

2020-09-20 13:40:33 116

原创 TensorFlow-MNist

linear regression#!usr/bin/env python# -*- coding:utf-8 _*-import tensorflow as tfimport numpy as npimport matplotlib.pyplot as plt# 使用np生成200个样本x_data = np.linspace(-0.5, 0.5, 200)[:,np.newaxis]noise = np.random.normal(0, 0.02, x_data.shape)y_d

2020-09-14 23:10:16 51

原创 贝叶斯网络

文章目录朴素贝叶斯朴素贝叶斯的假设高斯朴素贝叶斯多项式分布朴素贝叶斯贝叶斯网络一个简单的贝叶斯网络全连接贝叶斯网络贝叶斯网络及实例朴素贝叶斯朴素贝叶斯的假设给定一组特征,得到一个样本属于某个类别的概率高斯朴素贝叶斯多项式分布朴素贝叶斯贝叶斯网络一个简单的贝叶斯网络全连接贝叶斯网络贝叶斯网络及实例...

2020-09-06 22:51:14 104

原创 聚类

文章目录近似度余弦相似度与皮尔森相似度K-means 算法初值的选择问题k-means 的损失函数与梯度下降的关系K如何取值呢?聚类的衡量指标ARIAMI轮廓系数层次聚类方法AGNES中簇之间距离的定义方式密度聚类方法DBSCAN近似度余弦相似度与皮尔森相似度K-means 算法初值的选择问题K-means 是初值敏感的k-means 的损失函数与梯度下降的关系这里将K个簇看做u相同的正太分布,根据极大似然可以求得目标函数K如何取值呢?手肘法聚类的衡量指标ARIAMI

2020-08-31 23:03:58 211 1

原创 支持向量机-SVM

文章目录概念线性可分支持向量机线性分类问题目标函数的建立拉格朗日乘子法拉格朗日函数计算拉格朗日函数的对偶函数概念线性可分支持向量机线性分类问题目标函数的建立根据上述假设,输入的数据为拉格朗日乘子法拉格朗日函数计算拉格朗日函数的对偶函数...

2020-08-28 22:55:34 77

原创 决策树与随机森林

文章目录熵的定义回顾条件熵决策树熵的定义回顾熵是定义不确定性的物理量,越不确定,熵越大,越确定,熵越小。条件熵H(X,Y)表示X,Y共同发生的不确定性,H(X)表示X发生的不确定性,将X发生的不确定性减去,反过来说,给定了X发生情况下,Y发生的不确定性就是H(YginvenX)决策树以根据‘outlook’‘humidity’‘temperature’‘windy’这四个特征确定是否去打球为例1、任选一个特征,比如选outlook做为根节点,对数据进行切分,可以看到outlo

2020-08-21 08:22:10 180

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除