自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Young_618

数学,算法,编程

  • 博客(216)
  • 资源 (9)
  • 论坛 (1)
  • 收藏
  • 关注

原创 读书笔记

读书0

2020-11-14 15:41:30 8

原创 算法特征(new)相关list

Embedding前沿了解用户点击item序列embedding

2020-05-17 15:22:08 100

原创 Tensorflow相关list

Tensorflow简介及GPU环境配置(win10)Tensorflow工程架构Tensorflow基本用法

2020-05-17 14:57:54 187

原创 Shell/Vim相关list

Shellshell用法VimVim的基本用法

2019-10-12 21:21:17 132

原创 深度学习算法相关list

前馈神经网络,BP算法卷积神经网络(Convolutional Neural Network, CNN)循环神经网络(Recurrent Neural Network, RNN)与LSTMRNN/LSTM深度前馈网络原理及Batch训练原理自编码器(Auto-encoder)神经网络——优化器神经网络——激活函数...

2019-08-20 23:32:42 147

原创 搜索算法相关list

bm25算法pagerank算法

2019-08-18 19:34:34 182

原创 推荐算法相关list

贝叶斯平滑ctr计算item-based CFuser-based CFLFM/funk-SVDFM/FFMWide&Deep/DeepFM推荐系统常见问题推荐系统简介

2019-08-18 19:32:57 161

原创 机器学习算法相关list

感知机perceptron感知机k近邻法k-nearest neighbork近邻朴素贝叶斯法naive Bayes朴素贝叶斯决策树decision tree决策树逻辑斯谛回归与最大熵模型logistic regression/maximum entropy model逻辑回归与最大熵支持向量机support vector machinesSVM提升方法boosting提...

2019-08-18 19:26:33 139

原创 自然语言处理相关list

词向量词表(0/1)词频tf-idf(词的全局重要度)Ngram(相邻词顺序)NNLM(近义词 上下文) Word2vecELMo(多义词)模型朴素贝叶斯支持向量机逻辑回归CNN(短文本 打标签)LSTM(长文本 下文)双向LSTM(上下文)Attention Model(关键词)transformer(改进RNN里BPTT)BERT(MASK语言模型)...

2017-12-20 21:41:14 295

原创 Tensorflow边用边踩坑

加大batch,导致 输入数据维度过大 报错加一张gpu卡

2020-10-13 18:47:56 26

原创 Docker容器

虚拟化:一种资源管理技术docker实现轻量级的操作系统虚拟化解决方案docker的基础是linux容器技术,面向服务的架构CS(客户端-服务器,可命令行操作)硬件 - 操作系统R - 虚拟机/docker引擎 - 虚拟机里安操作系统V/docker与下层R共用一个操作系统yum安装docker,设置docker镜像源(1)安装yumsudo yum update -y 把yum包更新到最新(-y遇到yes/no选项自动选yes)sudo yum install -y yum-utils

2020-08-27 09:31:04 72

原创 机器学习算法——demo

为脑残的面试问题而生,哈哈~(1)LR为什么不可以用MSE作为损失函数MSE 会有梯度消失现象MSE 的导数非凸函数,求解最优解困难

2020-07-16 16:44:07 116

原创 Tensorflow——demo

tensorflow单机多卡训练TensorFlow在1.13版本里发布的tf.distribute API 支持单机多卡分布式训练。该API支持各种分布式Strategy切换:MirroredStrategy用于单机多卡 数据并行 同步更新的情况,在每个GPU上保存一份模型副本,模型中的每个变量都镜像在所有副本中。这些变量一起形成一个名为MirroredVariable的概念变量。通过apply相同的更新,这些变量保持彼此同步。镜像策略用了高效的All-reduce算法来实现设备之间变量的传递

2020-07-13 19:54:48 97

原创 词向量——demo

word2vec和BERT,都是语言表示中的里程碑式的工作,前者是词嵌入范式的代表,后者是预训练范式的代表。一个好的语言表示 除了建模一词多义现象以外,还需要体现词的复杂特性,包括语法、语义等。word2vec由“词的分布式表示假设(一个单词的意思 由频繁出现在该词 上下文的词 给出)”出发,最终得到一个look-up table,每个单词被映射到唯一一个稠密向量上。静态词表示,不考虑上下文,无法处理一词多义问题。BERT使用Transformer(中的编码器)作为特征抽取器,配合MLM这样的降噪

2020-07-13 15:16:15 87

原创 Embedding前沿了解

内容来自 https://mp.weixin.qq.com/s/j34nJGomvR23ZJiqIFMoAQQ:海量稀疏特征,如何找到好的特征 Embedding 表达方式?(1)对于序列行为中的 Item Embedding,拥有怎样性质的 Embedding 表达方式是较好的?(2)对于非行为序列的推荐模型,关于特征 Embedding,大家常规采用的做法是:将特征的 Embedding Size 作为超参,通过手工测试来寻找好的 Embedding 大小。然而,是否有更好的方式?A1:Res-

2020-05-29 18:46:20 88

原创 技术沙龙

1.) 4Paradigm Tech Day开源的AI框架对内存和分布式通信资源利用率低。类似Google的Tensorflow,现在有一些团队在积极探索优化一些算法,如Linear Regression、GBDT等的分布式计算过程的计算资源和通信流程。甚至,架构师们通过配置高性能的计算硬件,直接构造一些endtoend的计算框架~ 未来是不是对业务特征没有造诣的AI算法工程师们,会不会被这些框...

2019-11-24 22:18:57 206

原创 读书0

1.《学会吃饭》Jean Kristeller正念接受进食——味觉打分2.《你要如何衡量你的人生》克莱顿·克里斯坦森作者相关读物《创新者的窘境》写法:商业案例——>商业原理——>人生如何做人生变得成功:事业 + 家庭友谊 + 保持正直事业:[1.]目标 [2.]战略动因理论 > 激励理论动因:挑战性、获得认可、责任感、个人成长发现驱动计划理论:接受任务前,假...

2019-11-10 16:20:37 121

原创 pyspark.ml特征变换模块

pyspark.ml 2.1ml模块的算子是基于dataframe构建的:(1)ML Pipeline APIs快速构建ML pipeline的API(2)pyspark.ml.param module(3)pyspark.ml.feature module(4)pyspark.ml.classification module(5)pyspark.ml.clustering modu...

2019-10-15 18:04:39 869

原创 awk文本筛选

awk是处理文本文件的一个应用程序,几乎所有 Linux 系统都自带这个程序。它依次处理文件的每一行,并读取里面的每一个字段。[engine@client2v ~/yy1]$ cat demo.txt this+is+a+demo+for+awkhave+a+good+time+exercising+awkenjoy+yourselfawk处理文本(1)awk action file...

2019-10-12 22:00:36 175

原创 word2vec-google code

Google code word2vec toolkittooklit project introduction把词看成向量空间上的一个点,distance计算向量空间上点与点的距离代码及数据集下载google-code word2vectext8数据集训练...

2019-09-19 15:17:18 401

原创 Spark submit案例

准备文件及脚本层级build用于存放scala编译后的类,src用于存放scala源码compilescala.sh是编译命令,run_wordcount.sh是以spark submit形式向集群提交任务命令$ lsbuild compilescala.sh run_wordcount.sh srcscala源码task1:词频统计$ cat ./src/wordcount...

2019-08-19 17:22:11 377

原创 贝叶斯平滑ctr计算

更新Beta分布里的alpha和beta参数Beta(a,b)=θa−1(1−θ)b−1B(a,b),B函数是一个标准化函数\displaystyle Beta(a,b)=\frac{\theta^{a-1}(1-\theta)^{b-1}}{B(a,b)},B函数是一个标准化函数Beta(a,b)=B(a,b)θa−1(1−θ)b−1​,B函数是一个标准化函数用矩估计估计出来的参数alpha和beta => 给ctr计算做平滑np.random.seed(0)class HyperParam

2019-08-19 16:45:46 109

原创 Scala文件操作

写文件用java中 的 I/O 类 (java.io.File),如果文件不存在,直接创建新文件write新内容;如果文件存在,会删去文件原有内容write新内容。import java.io._object file_learn { def main(args:Array[String]): Unit ={ val writer = new PrintWriter(new Fi...

2019-08-19 11:30:05 56

原创 类别不均衡问题

问题背景机器学习建模分类问题里,各个类别样本量差异较大时,就会出现类别不均衡问题。e.g.如果有99999个无症状病例,1个有症状病例,即使训练的学习器将所有样本识别成无症状病例,准确率也高达99.9%;但是这样的学习器没有任何价值,无任何鉴别有症状病例的价值。常用类别均衡方法以下假设正例样本数远小于负例样本数:(1)欠采样欠采样的代表做法是利用集成学习机制,将反例划分成若干个集合 供不同学习器使用。(2)过采样过采样不能简单地对正例样本进行重复采样,否则会导致严重的过拟合。过采样的代表性算法

2019-08-18 19:17:23 133

原创 C++标准模板类STL

【stack】1.empty() 堆栈为空则返回真2.pop() 移除栈顶元素3.push() 在栈顶增加元素4.size() 返回栈中元素数目5.top() 返回栈顶元素【vector】1.push_back() 在数组的最后添加一个数据2.pop_back() 去掉数组的最后一个数据3.at() 得到编号位置的数据4.begin() 得到数组头的指针5.end() 得到数组的最后一个单元+1的指针6.front() 得到数组头的引用7.back() 得到数组的最后一个单元的引

2019-08-18 14:00:06 564

原创 深度推荐模型包DeepCTR

DeepCTR包主要是对目前的一些“基于深度学习的点击率预测算法”进行了实现,官方文档参考本文主要记录DeepFM算法的相关操作细节。实验数据prefix:用户输入(query前缀)query_prediction:预测的用户完整需求查询词,最多10条;预测的查询词可能是前缀本身,数字为统计概率title:文章标题tag:文章类型label:是否点击0/1import pandas as pdimport numpy as npimport lightgbm as lgbfrom sk

2019-08-18 13:29:57 105

原创 Bert文本分类

Bert是一种更合理的语言模型,基于bert预训练模型fine-tune可以完成文本分类、问答匹配等任务。本文主要记录使用bert预训练语言模型做二分类文本分类的实验过程。源码下载:https://github.com/google-research/bert预训练模型版本:(1)chinese_L-12_H-768_A-12对应BERT-Base, Chinese: Chinese Simplified and Traditional, 12-layer, 768-hidden, 12-heads,

2019-08-18 12:42:51 298

原创 分布式机器学习训练方案

分布式机器学习训练主流方案:Spark MLlib、Parameter Server、Tensorflow。分布式:指计算节点之间,不共享内存,需要通过网络通信交换数据。Spark建立在大量廉价计算节点上,这些节点可以是廉价主机、也可以是虚拟的Docker容器。Spark将程序拆解成任务DAG,在并行处理DAG过程,关键是找到哪些部分可以并行处理,哪些必须shuffle和reduce。shuffle和reduce操作,决定了纯并行处理阶段的边界,依据此 可以将DAG分割成不同的并行处理stage。

2019-08-17 21:51:32 55

原创 大数据平台几种架构对比

大数据领域的奠基石,毫无疑问,是google 2003年发表的Big Table、Google File System和Map Reduce三篇论文。大数据平台的发展:批处理、流计算、全面融合。批处理海量数据存储在HDFS,通过Map Reduce框架实现分布式计算。但“分布式存储+MR”的架构只能批处理 已经落到磁盘的静态数据,无法再数据采集传输等流动过程处理数据。数据处理延迟较大,影响数据的时效性应用。流计算在数据流产生及传递过程,流式地消费并处理数据。在每个“时间窗口”内的数据,被短暂缓存并

2019-08-17 20:31:50 54

原创 推荐系统特征维度

在推荐系统中,特征的本质是“对某个行为相关信息的抽象表达”。抽取特征时,尽量保留“推荐环境及用户行为过程中的所有有用信息”,摒弃冗余信息。用户行为数据显性反馈:评分、点赞等;隐性反馈:点击、播放时长、加购等。用户行为类特征向量:(1)代表用户行为的物品id序列,转化成multi-hot向量。(2)预训练好的物品embedding向量,再average pooling或attention 生成历史行为embedding向量。用户关系数据社交网络,显性关系:好友、关注;隐形关系:点赞、同时对某一物

2019-08-17 17:43:11 115

原创 调参方法-超参数优化

模型参数:(1)通过学习获得(2)学习开始前设定,没办法在学习过程得到,如学习率、隐层数。把第(2)类参数称为超参数;优化超参数,可以提高模型在独立数据集上的性能;常用交叉验证法,评估不同超参数下,模型的泛化性能。sklearn包提供的获取候选参数搜索方法:(1)GridSearchCV(2)RandomizedSearchCV。GridSearchCV对一个分类器进行超参数优化,通过优化阶段未使用的验证集进行评估。该方法适用于小数据集;大数据集参数组合较多时,尝试使用坐标下降法调参。即,每次贪心

2019-08-16 17:34:28 68

原创 TextCNN文本分类

textCNN网络结构textCNN 只有一层卷积,一层max-pooling, 最后将输出外接softmax 来n分类。(1)对句子分词后onehot编码,对应6*5矩阵;(2)4*5的卷积核作用后,产生3*1的feature-map;(3)map-pooling取feature-map最大值;(4)各种卷积核过滤、max-pooling后横向concat,全连接输出层。tensorflow搭建网络及测试案例#coding=utf-8import tensorflow as tfimpor

2019-08-15 19:04:37 97

原创 pagerank算法

问题背景在使用搜索引擎时,保持网页与查询一定相关度的基础上,PRPRPR值可以提供不错的排序依据。算法的基本思想“互联网上的网页”——>“图的节点”“网页的出链”——>“指向其他节点的一条有向边”“网页的入链”——>“其他节点指向这个节点的有向边”“整个网络”——>“一张有向图”网页质量的评估遵循以下两个假设(1)一个网页的入链越多,网页质量越高(2)一个...

2019-06-27 22:53:04 124

原创 bm25算法

bm25算法,常用作搜索相关性评分。bm25算法主要思想对Query进行语素解析,生成语素qi;然后,对于每个搜索结果d,计算每个语素qi与d的相关性得分,最后,将“一个Query各个qi相对于d的相关性得分”加权求和,从而得到“Query与d的相关性得分”。bm25算法原理及公式推导一条Query与搜索结果的任意doc之间相关性分数Score(Q,d)=∑inWiR(qi,d)Scor...

2019-06-14 14:27:34 1103

原创 Hadoop学习之MapReduce计算框架

批处理模式是一种最早进行大规模数据处理的模式。批处理主要操作“大规模静态数据集”,并在整体数据处理完毕后返回结果。MapReduce 计算架构提供的主要功能(1)任务调度将一个计算作业(Job)划分成多个计算任务(Tasks)为划分的Tasks分配和调度计算结点(Map 结点或 Reduce 结点)监控计算结点的执行状态Map 结点执行的同步控制计算性能优化处理例如,对最慢的计算任...

2019-06-06 20:26:47 733 1

原创 shell用法

单引号、双引号、反引号(1)单引号’ '内剥夺所有字符的特殊含义,所有字符都是单纯的字符串而没有特殊功能。如,$取参数等命令是无效的。(2)双引号" "中除了字符串,特殊字符是没有被转义的。如,$等特殊字符一样可以使用其功能。(3)反引号``是命令替换,即把命令输出结果传给入变量。[filter@idxdb1 ~/yy]$ cat test_yh.sh #!/bin/basha=...

2019-06-03 15:20:20 181

原创 fastText文本分类

http://fasttext.apachecn.org/#/doc/zh/supervised-tutorial

2019-05-27 12:27:19 804

原创 用户点击item序列embedding

场景描述:一句话是一个文本序列,通常可以直接使用word2vec编码;类似的,用户浏览商城时,依先后顺序点击的物品id,也构成物品序列,可以对各个用户的物品序列用word2vec训练。模型训练完,对一个新来的物品id,可以用模型预测,预测的向量就是对物品的embedding向量。%matplotlib inlineimport pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as snspl

2019-05-27 12:26:18 769

原创 词袋模型

在语言处理中,用向量x表示文本数据,以反映文本的各种语言属性,这称为特征提取或特征编码;而词袋模型Bag-of-words(简称BoW)就是一种可以 / 以多种方式 / 从文档中 / 对文本数据 / 进行特征提取 / 的方法。词袋是文本的表示,它涉及两件事:(1)已知单词的词汇;(2)衡量已知单词的存在。 词袋被称为单词的“ 包 ”,因为它仅关注文档中是否出现已知单词,而关于文档中单词的顺序或结...

2019-05-26 16:11:43 1247

原创 fastText的基本原理及参数

fastText原理对于一个长度为TTT的句子为w1,w2,...,wTw_1,w_2,...,w_Tw1​,w2​,...,wT​,假设每个词都跟其相邻的词的关系最密切,即每个词都由相邻的词决定的(CBOW模型),或每个词都决定了相邻的词(Skip-gram模型)。为了基于语料库生成模型的训练样本,选取一个长度为2c+1(目标词前后各选c个词)的滑动窗口,从语料库中抽取一个句子:将滑动窗口由左至右滑动,每移动一次,窗口中的词组就形成了一个训练样本。优化目标:哈夫曼树fastText库的使用fa

2019-05-26 15:04:02 1614

test_ctr.zip

贝叶斯平滑机制计算ctr更能反映物品的点击率,用矩估计估计出来的参数alpha和beta,再把相应的给ctr计算做平滑,实验证明,使用该平滑机制计算的ctr更能反应物品的热度。

2020-05-29

underexpose_train.zip

用户点击的item序列embedding使用数据,类似一句话是一个文本序列,通常可以直接使用word2vec编码,同样可以对用户点击物品id序列进行编码。

2020-05-29

tfrecord数据.zip

tensorflow实战场景tfrecord方式读取数据的数据样本,现在tensorflow架构里限制整个流程瓶颈的是数据IO,用Queue机制异步的方式(生产者消费者模式)实现数据IO可以高效完成数据的预处理和读取,有效利用GPU资源。

2020-05-17

数据集demo-word.sh.zip

google-code的word2vec训练工具配套数据,demo-word.sh

2019-09-19

word2vec.zip

This tool provides an efficient implementation of the continuous bag-of-words and skip-gram architectures for computing vector representations of words. These representations can be subsequently used in many natural language processing applications and for further research.

2019-09-19

README.md文档

spark入门联系wordcount等相关操作文档~ Spark is a fast and general cluster computing system for Big Data. It provides high-level APIs in Scala, Java, Python, and R, and an optimized engine that supports general computation graphs for data analysis. It also supports a rich set of higher-level tools including Spark SQL for SQL and DataFrames, MLlib for machine learning, GraphX for graph processing, and Spark Streaming for stream processing.

2019-08-19

cnews.zip 新浪新闻RSS订阅频道10类文本数据

数据集是清华大学根据新浪新闻RSS订阅频道2005-2011年间的历史数据筛选过滤生成。数据集一共包括10类新闻,每类新闻65000条文本数据,训练集50000条,测试集10000条,验证集5000条。

2019-07-17

SI4安装及破解文件.zip

非常好用的适合撰写如C/C++或Java等程序语言的编辑器,可以自动列出程序的变量,量数等。

2019-06-28

cooking.stackexchange.tar.gz

Stack exchange 网站的烹饪部分下载问题示例及其相应标签数据集,用于fastText模型训练

2019-06-02

Young_win的留言板

发表于 2020-01-02 最后回复 2020-01-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除