自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(437)
  • 资源 (1)
  • 问答 (4)
  • 收藏
  • 关注

原创 【推荐系统】负采样技术

回顾以下word2vec,负采样的思想更加直观:为了解决数量太过庞大的输出向量的更新问题(word2vec这里要预测是哪个单词,而单词库上万),我们就不更新全部向量,而只更新他们的一个样本。显然正确的输出单词(也就是正样本)应该出现在我们的样本中,另外,我们需要采集几个单词作为负样本(因此该技术被称为“负采样”)。采样的过程需要指定总体的概率分布,我们可以任意选择一个分布。我们把这个分布叫做噪声分布,标记为 。可以凭经验选择一个好的分布。在word2vec中,作者称用简化的训练目标取代用一个定义好

2021-01-22 00:39:10 22

原创 【推荐系统】YoutubeDNN召回

主要是按照以下3篇介绍+评论的脉络来整理(讲的真的超级好!),再加上我自己在实际运用过程中产生的问题。重读Youtube深度学习推荐系统论文,字字珠玑,惊为神文 - 王喆的文章 - 知乎 YouTube深度学习推荐系统的十大工程问题 - 王喆的文章 - 知乎 揭开YouTube深度推荐系统模型Serving之谜 - 王喆的文章 - 知乎推荐系统遇上深度学习(三十四)--YouTube深度学习推荐系统https://github.com/onozeam/YoutubeDNN(...

2021-01-17 22:07:19 22

原创 【】mac安装pyspark

java1.8首先要安装好,然后去下载spark和scala。版本对应问题一定要注意!!!总而言之就是安装包下载好,然后bin目录添加到环境变量里,就大功告成了~java==1.8 scala==2.11.8 spark==3.0.1 # 注意这里没有安装过hadoop哦spark网站下载https://www.apache.org/dyn/closer.lua/spark/spark-3.0.1/spark-3.0.1-bin-hadoop2.7.tgzscala网站下载htt..

2021-01-11 23:32:12 18

原创 【推荐系统】DIN源码分析(一)

数据预处理关于训练集和测试集合的划分样本分析userid=4用户的历史行为:[1,2,4,5]随机初始的itemid为 0train_set_pos 1 17 [(0, [1], 2, 1), (0, [1], 0, 0), (0, [1, 2], 4, 1), (0, [1, 2], 0, 0), (1, [1], 2, 1), (1, [1], 0, 0), (1, [1, 2], 4, 1), (1, [1, 2], 0, 0), (2, [1], 2, 1),..

2021-01-11 23:07:48 25

原创 【Tensorflow】tf查看是否使用gpu

1、tf.test.is_gpu_available( cuda_only=False, min_cuda_compute_capability=None)# 简化一点print("is_gpu: ", tf.test.is_gpu_available())2、import tensorflow as tfsess = tf.Session(config=tf.ConfigProto(log_device_placement=True))# 查看日志信息若包含gp

2021-01-08 17:08:23 93

原创 【Python】python-kafka 理论

目录1、前置概念同步(Synchronous)和异步(Asynchronous)同步异步不能和阻塞非阻塞混为一谈2、Kafka Producer配置解读3、Kafka Consumer配置解读4、异常1、前置概念同步(Synchronous)和异步(Asynchronous)定义:同步和异步关注的是消息通信机制(synchronous communication/ asynchronous communication)。同步,就是调用某个东西是,调用方得等待这个调用返.

2021-01-06 15:08:34 27

原创 【推荐系统】YoutubeDNN

探索性数据分析(Exploratory Data Analysis,EDA)

2020-12-29 01:25:15 67

原创 【Python】菜鸡小技巧总结

本菜鸡在刷leetcode时的一些备忘录 ヾ(◍°∇°◍)ノ゙遍历数组的时候,跳过当前元素ss = "abcd"for i in range(len(ss)): print(i) print(ss[:i]+ss[i+1:])"""0bcd # 第0个元素不取1acd # 第1个元素不取2abd # 第2个元素不取3abc # 第3个元素不取"""数组倒着输出 list.pop()alist = [1,2,3,4,5]for _ in range

2020-12-21 16:04:17 27

原创 【推荐系统】关于ItemCF和userCF的选择

目录ItemCF:给用户推荐自身物品的相似物品。UserCF:给用户推荐相似用户的物品。ItemCF 与 UserCF计算复杂度适用场景推荐多样性和精度ItemCF:给用户推荐自身物品的相似物品。1、适合用户量相对较多,物品量相对较少;用户变化相对频繁,物品变化相对稳定的场景。(假设m个用户,n个物品,那么计算复杂度为n(n-1)*m)2、适合长尾、个性化场景。3、item-based基于用户的历史记录来推荐,容易过拟合。UserCF:给用户推荐相似用户的

2020-12-10 00:25:00 49

原创 【NLP】ELMO\BERT\GPT入门

A word can have multiple senses图:in typical word embedding, each word type has an embeddingbank是不同的token,但是是同样的type,就是bank。token是NLP里分词的结果,是没有确定词义的一个词。word2vector中,每一个word的type有一个embedding,所以不同的token,但它属于同一个type,则它所对应的embedding的一样的。在过去的任务中,所.

2020-12-03 00:03:17 138

原创 【Python】@property装饰器

主要内容是翻译自:https://www.programiz.com/python-programming/property目录没有getter和setter的类使用getter和setterThe property Class@property装饰器Python编程为我们提供了一个内置的@property装饰器,该装饰器使面向对象编程中的getter和setter的使用更加容易。回顾一下,什么是装饰器:为什么需要@property装饰器没有getter和sette.

2020-11-27 18:25:55 55

原创 【Python】装饰器

目录Python中的装饰器高阶函数的举例装饰器带参数的装饰器Python中的链接装饰器主要翻译来自:https://www.programiz.com/python-programming/decoratorPython中的装饰器Python有一个有趣的功能,称为装饰器,可以向现有代码添加功能。这也称为元编程,因为程序的一部分试图在编译时修改程序的另一部分。Python中的所有内容(是!甚至是类)都是对象。我们定义的名称只是绑定到这些对象的标识符。函数也不例外,它

2020-11-27 18:14:40 106

原创 【问题记录】ImportError: /lib64/libstdc++.so.6: version `GLIBCXX_3.4.21‘ not found

每次安装完lightgbm总是会有新的问题 conda install -c conda-forge lightgbm 。。。看了几个帖子,最后是这一篇解决了我的问题。需要补充的就是.bashrc,需要执行cd ~,然后再打开。解决动态库路径错误导致ImportError: /lib64/libstdc++.so.6: version `GLIBCXX_3.4.21' not found 的问题报错信息显示动态库路径是/lib64,我的anaconda路径为/data/XXX/anaco..

2020-11-27 14:51:59 191

原创 【Linux】nohup程序后台运行

nohup表示进程在当用户注销(logout)或者网络断开时不会被终止。nohup yourcommand &# yourcommand:启动对象命令。可以跟该命令需要的各种参数。# &是指在后台运行,但当用户推出(挂起)的时候,命令自动也跟着退出。nohup与&结合起来,可以实现不挂断的后台运行。重定向到日志文件这样虽然程序可以后台运行了,但是我们都希望之后可以查看程序的运行日志。这里使用重定向将日志保存起来,方便日后查看。nohup yourcomm..

2020-11-27 13:27:46 120

原创 【】每天进步一点点产品知识

每日进步一点点产品知识ヾ(◍°∇°◍)ノ゙DAU :一天里活跃的独立的用户数。(24h) MAU:一个月里活跃的独立的用户数。(30 days)如何理解 DAU 和 MAU 这两个数据? - 知乎如何理解 DAU 和 MAU 这两个数据? - Aaron余乐的回答 - 知乎DAU(日活):单日活跃用户量,反应产品短期用户活跃度MAU(月活):单月活跃用户量,反应产品长期用户活跃度日活和月活的比值乘以30等于用户月平均登录天数。日活和月活的比值高,代表一个月有使用产品的用户中,

2020-11-27 11:11:38 112

原创 【Vim】常用快捷键记录

持续更新啊 文件第一行 命令模式 gg(连续按两次键盘键g) 文件最后一行 命令模式 Shift + g 文件行首 命令模式 数字0 文件行尾 命令模式 快捷键"$,加上数字表示移动的行数。例如使用"1$"表示当前行的行尾,"2$"表示当前行的下一行的行尾

2020-11-26 15:36:09 101

原创 【Pytorch】本地预训练模型加载

1、预训练模型加载【Pytorch】快速下载预训练模型并修改保存路径最最最重要的是要将pretrained=False,如果是Ture的话,还是会去官方定义的路径下载pth。

2020-11-26 15:10:26 159 1

原创 【Pytorch】使用过程中的一些报错记录

主要是公司电脑是windows,有些在本地上调和集群上环境不一样。 ImportError: DLL load failed: 页面文件太小,无法完成操作 python代码训练神经网络时,报错:“ImportError: DLL load failed: 页面文件太小,无法完成操作。”出现这个问题可能有两种情况。1、不止在运行一个项目,另一个项目的python程序也在运行,关掉就可以了。2、windows操作系统不支持python的多进程操作。而神经网络用到多进程的地方在数据集加载上,所

2020-11-26 15:05:58 114

原创 【计算机视觉】 ffprobe not found

这次记录里说明了如何计算视频播放时长【计算机视觉】ffmpeg获取视频详细信息含视频时长在linux环境下,出现报错 ffprobe not found, 尽管已经安装了pip ffmpeg,但是显然环境并没有知道已经安装了。解决办法参考https://stackoverflow.com/questions/30770155/ffprobe-or-avprobe-not-found-please-install-one执行 sudo apt-get install -y ffmpeg然后

2020-11-25 17:28:08 121

原创 【Docker】部署时遇到的一些问题

问题:Hash sum mismatch解决方案:解决参考:Docker学习笔记(五)-fixbug2-Hash sum mismatch其他一些网路问题问题:No server is available to handle this request.

2020-11-25 17:20:43 88

原创 【Tensorflow】RuntimeWarning: compiletime version 3.5 of module ‘tensorflow.python.framework.fast_tens

先说下我机器的环境python3.6、cuda8.0(真的够老)、tensorflow_gpu==1.4运行代码时报错:RuntimeWarning: compiletime version 3.5 of module 'tensorflow.python.framework.fast_tensor_util' does not match runtime version 3.6网上看说这个是tensorflow的一个小bug???tersorflow gpu cuda cudnn pyt

2020-11-25 17:06:05 136 1

原创 【推荐系统】ctr预估与推荐系统的关系

个人认为ctr预估是用在推荐系统中精排这一部分的。CTR 预估和推荐系统的区别@BruceSun召回的种类大概可以分为几类:一大类是基于用户兴趣的召回,包括长期兴趣、实时兴趣等等,第二类是协同类召回,比如基于用户session 链的协同、基于用户社交关系应用于内容的协同等等,还有一类是 nn 学习的 embedding 相似召回。排序是将各路召回数据整合之后基于一个或者多个特定目标的模型排序部分,最常见的就是以点击率作为目标来进行预测,而还有其他一些目标比如说:停留时长、点赞评论等等。这.

2020-11-24 00:08:05 56

原创 【Python】networkx图布局与线性代数(5)

我所以理解的图布局:单纯nx.drwa()画出的图,保存后再打开会出现不一样的情况,所以需要布局来固定每个点的位置。一些布局的api可以直接看原博客:NetworkX系列教程(8)-Drawing Graph如果只是简单使用nx.draw,是无法定制出自己需要的graph,并且这样的graph内的点坐标的不定的,运行一次变一次,实际中一般是要求固定的位置,这就需要到布局的概念了。详细的画图信息可以看这里。networkx线性代数部分由图打印出邻接矩阵list、特征值list;#定义图的

2020-11-23 13:27:00 165

原创 【Python】networkx图节点和与边操作(4)

graph生成后,除了有查看操作,还有移除等操作,还有其他更多操作,具体可以看这里。下面将比较graph操作前后的不同。目录1、移除某些节点和边2、合并graph3、有向图和无向图的转化这个博主讲的真的很不错,很适合入门~1、移除某些节点和边#G.clear()#生成graphG=nx.path_graph(8)plt.subplots(1,2,figsize=(15,5))plt.suptitle('移除部分节点和边',fontproperties=myfont)

2020-11-22 22:58:52 273 1

原创 【Python】networks查看图信息(3)

有时候graph建好后,我们并不清楚该graph内节点、边的信息,需要调用函数去查看Graph的信息。目录1、查看graph内节点,边的数量2、查看graph中的点,边3、查看某些节点的度4、查看节点&边信息5、遍历一个有权图1、查看graph内节点,边的数量# 生成graphG = nx.path_graph(8) # 生成一个8个点的图nx.draw(G, with_labels=True) # 画图plt.axis('on')plt.xticks([]

2020-11-22 21:17:07 116

原创 【Python】networkx设置图信息(2)

官网:https://networkx.org/documentation/stable/reference/generators.html使用自己的数据去手动创建自己的图形,而不是使用生成器,现从给graph添加点和边入手,手动创建graph。还是接着上一篇的教程,教程的3、4、5部分。start!!!目录1、给graph增加节点2、给graph增加边3、设置graph的信息3.1、创建graph时添加属性(图属性)3.2、指定节点的属性(节点属性)3.3、指定边的属性

2020-11-22 19:20:55 144

原创 【Python】networkx创建图(1)

创建一个无向图import matplotlibimport networkx as nxfrom PIL import Imageimport matplotlib.pyplot as pltfrom networkx.drawing.nx_pydot import to_pydotfrom matplotlib.font_manager import *#用于显示图片def ShowGraph(G): # 使用pydot保存图片 P = to_pydot(G)

2020-11-22 17:54:34 206 1

原创 【工程】conda常用命令

1、安装包批量导入、导出pip 将当前Python环境中已安装的所有包的包名和版本信息,输出重定向到指定文件中。(通常可以保存到requirements.txt文件中)# 输出已经安装的所有包的包名和版本信息pip freeze# 将上述结果输出重定向到requirements.txt文件中保存pip freeze > requirements.txtpip 批量安装requirements.txt中指定的包pip install -r requirements.txtc

2020-11-22 12:39:04 29

原创 【深度学习】DSSM模型介绍(1)

DSSM (Deep Structured Semantic Models)应用:DSSM文本匹配模型在商品语义召回上的应用参考:DSSM文本匹配模型在苏宁商品语义召回上的应用蚂蚁金融NLP竞赛——文本语义相似度赛题总结

2020-11-15 22:55:47 98

原创 【Python】代码模块及书写规范

因为同事把代码交接给了我。。。这代码写的稀烂。我第一次见不把配置单独写出来的人,五六个消息队列的配置散落在代码的里里外外。一个文件处理了七八个函数逻辑,真的定位bug都难上加难。鉴于自己的水平也不太够,也想认真的把这个python后端代码重构了,所以学习了一下,一些正确的书写风格。主要来自于:https://github.com/piglei/one-python-craftsman以下是目录1. 善用变量改善代码质量 2. 编写条件分支代码的技巧 3. 使用数字与字符串的.

2020-11-06 11:05:56 77

原创 【Python】并发编程

目录为什么要引入并发编程?python对并发编程的支持如何选择呢?为什么要引入并发编程?场景1:一个网络爬虫,按顺序爬取花了1小时,采用并发下载减少到20分钟;场景2:一个app应用,优化前每次打开页面需要3秒,采用异步并发提升到每次200ms;为了提升程序运行速度单线程串行:线程开始以后,cpu先执行,然后进行io(数据读取和写出),在io期间cpu是不做任何事情的,io完成以后,cpu继续开始运算,进行下一次io,因为在io的时候,cpu是等待状态,造成浪费。多线

2020-10-30 23:43:09 24

原创 【深度学习】图深度学习入门(二)

Spectral-Based Convolution实时卷积、频域相乘Spectral Graph Theoryundirected graph 对称矩阵f(0)=4\ f(1)=2 \ f(3)=4 \ f(4)=-3为什么频率可以反应出?f是每个节点的属性,初始是随机的,需要学习的。随着lamda频率越来越高,意味着越不相关。以上一切都是为了做fourior transfor。定义了fourior transfor才能在gr..

2020-10-29 00:44:40 43

原创 【深度学习】图深度学习入门(一)

roadmap边代表两个节点有关系,节点有节点的性质,边有边的性质。考虑entity本身的feature,也要考虑entity与其他entity之间的关系——GNN类比CNN,是有一个kernel在滑动做计算,得到feature map(用它的邻居来update feature map),那么如何将方法使用在GNN上呢?fourier domain\ filter response\ inter fourier transition. (一堆听不懂的名词)spatial.

2020-10-28 00:39:52 107

原创 【Python】glob用法 & global用法

总是有点弄混glob和global,做下记录。glob 为n. 一滴;水珠;一团 global 为 adj. 全球的;总体的;球形的目录1、glob用法2、global用法1、glob用法query_imgs_path += glob.glob(os.path.join(QUERY_PATH, id, '*.jpg'))这样就可以获取,这个目录下 os.path.join(QUERY_PATH, id),所有以.jpg存储的图片的地址,这些地址存在query_imgs..

2020-10-24 10:35:11 181 1

原创 【机器学习】AUC计算(Python实现)

目录1、sklearn中计算AUC值的方法2、编写函数实现 auc_calculateAUC理论请看【机器学习】POC & AUC1、sklearn中计算AUC值的方法from sklearn.metrics import roc_auc_scoreauc_score = roc_auc_score(y_truth,y_pred)y_pred即可以是类别,也可以是概率。roc_auc_score直接根据真实值和预测值计算auc值,省略计算roc的过程。.

2020-10-19 11:39:49 186

原创 【计算机视觉】Python视频处理

目录1、计算视频总帧数2、视频中的 FPS,即:每秒传输帧数(Frames Per Second))3、视频按帧保存成图片4、按帧合成视频5、视频按照 指定时间/ 指定帧率 保存成图片1、计算视频总帧数ffmpeg$ffmpeg -i test.avi -vcodec copy -f rawvideo -y /dev/null 2>&1 | tr ^M '\n' | awk '/^frame=/ {print $2}'|tail -n 1opencv.

2020-10-19 10:52:14 72

原创 【计算机视觉】视频特征提取调研

背景:之前接触的视频推荐用到的都是用户的行为数据,缺少视频本身的信息,或者说视频本身的信息都是通过nlp提取视频标题做的,没有用到视频内容的特征。(虽然我进行这个调研并不是做这个的(*^▽^*))可能有用的参考:思路一使用ffmpeg等工具,将一段视频提取出关键帧,再进行图像与图像之间的比较。视频抽帧那点事1、图像视频相似度算法图片是采用phash算法,一共分为四步:将图片缩放到16*16大小,这是我们选择的合适的大小,假如宽高不一样,直接将其压到16*16,去掉细节,只保留宏.

2020-10-09 11:35:21 196

原创 【推荐系统】Faiss调研01

背景目前有项目会涉及到向量的存储和计算,对于机器学习领域来说,大部分经过训练后的模型都是以特征向量的方式呈现的,所以特征向量的存储和搜索也就是必要的了。先贴上官网的入门教程:https://github.com/facebookresearch/faiss/wiki/Getting-started就算是看官方的例子,对于菜鸟本鸟我来说,也是很难理解的。官方例子暴力搜索 IndexFlatL21、构建待检索向量和查询向量import faissimport numpy as n

2020-09-26 02:00:33 72 2

原创 【Scala】 提取器unapply方法

目录1、apply方法2、unapply方法1、apply方法回顾一下apply,类似构造函数定义了一个Foo类,并且在这个类中,有一个伴生对象Foo,里面定义了apply方法。有了这个apply方法以后,我们在调用这个Foo类的时候,就可以用函数的方式来调用:unapply接受一个对象,从对象中提取出相应的值。unapply方法主要用于模式匹配中。object Client { def main(args: Array[String]): Unit = {

2020-09-18 23:30:23 152

原创 【Scala】单例对象和伴生对象

自己采取的路线是和java对比来学习,方便理解scala,顺便也可以复习java。ヾ(◍°∇°◍)ノ゙目录1、Scala单例对象2、Scala伴生对象3、apply方法4、Java静态类、静态成员、静态方法说明前言:函数式编程和面向对象编程区别Scala是函数式编程:函数作为一个对象,能作为参数传递给其它参数,并且能作为函数的返回值。面向对象调用:对象.方法 (点号调用) 函数式调用:函数(参数) (括号调...

2020-09-18 23:30:10 48

IDEA中Scala官方插件

scala version:2020.2.27 IDEA verison: 2020.2-2020.2.2 官网下载,用于网速慢的情况

2020-09-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除