- 博客(649)
- 资源 (104)
- 收藏
- 关注
原创 IDEA远程调试
IDEA 远程调试,像运行本地代码一样调试远程主机上的程序,以排查远程程序的BUG或代码执行流程。原理:本机和远程主机的两个 VM 之间使用 Debug 协议通过 Socket 通信,传递调试指令和调试信息。被调试程序的远程虚拟机:作为 Debug 服务端,监听 Debug 调试指令。jdwp是Java Debug Wire Protocol的缩写。调试程序的本地虚拟机:IDEA 中配置的 Remote Server,指定 Debug 服务器的Host:Port,以供 Debug 客户端程序连接。2.1
2022-07-14 14:31:39
414
原创 CVR预估模型-ESMM
文章基于 Multi-Task Learning 的思路,提出一种新的CVR预估模型——ESMM,有效解决了真实场景中CVR预估面临的数据稀疏以及样本选择偏差这两个关键问题。Motivation不同于CTR预估问题,CVR预估面临两个关键问题:1 样本选择偏差(sample selection bias,SSB):传统CVR模型通常以点击数据为训练集,其中点击未转化为负例,点击并转化为正例,但是训练好的模型实际使用时,则是对整个空间的样本进行预估,而非只对点击样本进行预估。即传统的推荐系统仅用.
2021-10-25 00:03:43
708
原创 距离和相似度度量方法
http://blog.csdn.net/pipisorry/article/details/45651315在机器学习和数据挖掘中,我们经常需要知道个体间差异的大小,进而评价个体的相似性和类别。最常见的是数据分析中的相关分析,数据挖掘中的分类和聚类算法,如 K 最近邻(KNN)和 K 均值(K-Means)等等。不同距离度量的应用场景根据数据特性的不同,可以采用不同的度量方法。whi...
2021-09-24 22:18:08
99346
4
原创 Tensorflow:批归一化和l1l2正则化
Batch Nomalizationtodo-柚子皮-L2正则化tensorflow实现示例1:from tensorflow.python.keras.regularizers import l2self.kernels = [self.add_weight(name='kernel' + str(i), shape=(hidden_units[i], hidden_units[i + 1]), initial
2021-09-09 23:47:12
656
1
原创 深度学习:蒸馏Distill
Distilling the knowledge in a neural networkHinton 在论文中提出方法很简单,就是让学生模型的预测分布,来拟合老师模型(可以是集成模型)的预测分布,其中可通过用 logits 除以 temperature 来调节分布平滑程度,还避免一些极端情况影响。蒸馏时的softmax比之前的softmax多了一个参数T(temperature),T越大产生的概率分布越平滑。[Distilling the knowledge in a neural
2021-05-25 15:50:07
2302
原创 sql模板
- 表的定义,gender STRING -- COMMENT '性别';-- 快速创建有数据的临时表-- 不定义,直接继承创建-- 表的插入select *,appid(相对于ddl多出一个) from a;某条数据插入UNION ALLSELECT *;-- 表的修改--删除分区,需要一个个删除分区,分区全删了,表定义还在--删除分区,不添加到回收站--删除非分区表,表定义不删除?
2021-05-13 15:00:33
28
1
原创 PyTorch:距离度量
两个张量之间的欧氏距离即m*e和n*e张量之间的欧式距离理论分析算法实现import torchdef euclidean_dist(x, y): """ Args: x: pytorch Variable, with shape [m, d] y: pytorch Variable, with shape [n, d] Returns: dist: pytorch Variable, with shape [m, n]...
2021-04-22 14:49:33
3193
原创 PyTorch:卷积/padding/pooling api
填充paddingtorch.nn.ConstantPad2d(padding: Union[T, Tuple[T, T, T, T]], value: float)参数:padding (int, tuple) – the size of the padding. If is int, uses the same padding in all boundaries. If a 4-tuple, uses padding_left , padding_right , padding_top , pa
2021-02-03 21:43:27
910
原创 PyTorch:分布生成函数
TORCH.NORMALtorch.normal(mean, std, *, generator=None, out=None) → Tensor这种生成正态分布数据的张量创建有4种模式:(1)mean为张量,std为张量(2)mean为标量,std为标量(3)mean为标量,std为张量(4)mean为张量,std为标量[从零开始深度学习Pytorch笔记(3)——张量的创建(下)]torch.normal(mean, std, size, *, out=None) → T
2021-01-18 20:38:53
1408
原创 PyTorch:模型训练-分布式训练
-柚子皮-不同数据并行方案(parameter server 模式和 allreduce 模式,同步更新和异步更新)的详细介绍。分布式算法原理Parameter server 模式以参数????为同步基础,我们可以采用 master-slave 的同步模式:将 node 分成两种角色:parameter server(ps) 负责维护一份最新的参数 ,worker 负责利用从 ps 读到的最新参数计算出梯度(forward 和 backprop),并对 ps 发送梯度和参数更新请求。这被
2021-01-10 23:36:16
885
原创 无重复元素的组合算法/n个列表中取n个不同的数
方法1:无重复元素的组合算法修改排列组合算法[Generate all combinations from multiple lists]private static void generatePermutations(List<List<String>> lists, List<List<String>> result, int depth, List<String> current) { if (depth >=...
2020-12-14 21:20:06
695
原创 PyTorch:可视化TensorBoard
PyTorch 1.2.0 版本开始。安装及更新pip3install --upgrade torch torchvisionpip3 install tensorboardBugs:1 AttributeError: module 'tensorflow._api.v1.io' has no attribute 'gfile'出现这个问题的根本原因在于pytorch调了Tensorflow,最后由Tensorflow报出的错误,tensorflow的新版本与旧版本的不兼容。..
2020-10-29 00:03:05
1698
1
原创 PyTorch:模型save和load
-柚子皮-神经网络训练后我们需要将模型进行保存,要用的时候将保存的模型进行加载。PyTorch 中保存模型主要分为两类:保存整个模型和只保存模型参数。A common PyTorch convention is to save models using either a.ptor.pthfile extension.保存加载整个模型(不推荐)保存整个网络模型(网络结构+权重参数)torch.save(model, 'net.pth')加载整个网络模型(可能比较耗...
2020-10-29 00:02:51
4516
3
原创 PyTorch:nn操作
LayerNormtorch.nn.LayerNorm(normalized_shape, eps=1e-05, elementwise_affine=True, device=None, dtype=None)示例>>> input = torch.randn(20, 5, 10, 10)>>> # With Learnable Parameters>>> m = nn.LayerNorm(input.size()[1:])>
2020-10-28 23:24:36
375
原创 PyTorch:tensor-基本操作
Embeddingtorch.nn.Embedding(m, n)m 表示单词的总数目,n 表示词嵌入的维度,其实词嵌入就相当于是一个大矩阵,矩阵的每一行表示一个单词。emdedding初始化默认是随机初始化。# 定义词嵌入embeds = nn.Embedding(2, 5) # 2 个单词,维度 5# 得到词嵌入矩阵,开始是随机初始化的torch.manual_seed(1)embeds.weight#-0.8923 -0.0583 -0.1955 -0.9656 0...
2020-10-28 22:09:34
4526
2
原创 PyTorch:tensor-数学API
-柚子皮-乘法API1. 二维tensor相乘:torch.mma是 [m, k],b是[k, n],结果是 [m, n]c = torch.mm(a, b)2. 三维tensor相乘torch.bmm只能用于三维tensor相乘,这个函数不支持广播,也就是第一维必须相同,另外两维符合矩阵相乘法则c = torch.bmm(a, b)3. 任意多维tensor相乘:torch.matmul支持广播;当两个都是一维时,表示点积c = torch.matmul(a, b)利用这
2020-10-22 23:04:54
1143
2
原创 PyTorch:tensor-张量维度操作(拼接、维度扩展、压缩、转置、重复……)
张量维度操作(拼接、维度扩展、压缩、转置、重复……)-柚子皮-torch.cat(seq, dim=0, out=None) 多个tensor拼接在指定的维度dim上对序列seq进行连接操作。参数:seq (sequence of Tensors) - Python序列或相同类型的张量序列dim (int, optional) - 沿着此维度连接张量out (Tensor, optional) - 输出参数例子:x = torch.randn(2, 3)x-0.5866 -0.
2020-10-22 23:04:20
26467
1
原创 深度学习:batch_size和学习率 及如何调整
-柚子皮-学习率衰减import torch.optim as optimfrom torch.optim import lr_scheduler# 训练前的初始化optimizer = optim.Adam(net.parameters(), lr=0.001)#学习率衰减scheduler = lr_scheduler.StepLR(optimizer, 10, 0.1) # # 每过10个epoch,学习率乘以0.1# 训练过程中for n in n_epoch: ...
2020-10-21 00:17:08
8606
1
原创 PyTorch:模型训练和预测
-柚子皮-指定GPU编号设置当前使用的GPU设备仅为0号设备,设备名称为 /gpu:0:os.environ["CUDA_VISIBLE_DEVICES"] = "0"设置当前使用的GPU设备为0,1号两个设备,名称依次为 /gpu:0、/gpu:1:os.environ["CUDA_VISIBLE_DEVICES"] = "0,1"根据顺序表示优先使用0号设备,然后使用1号设备。Note: 指定GPU的命令需要放在和神经网络相关的一系列操作的前面。梯度裁剪n..
2020-10-21 00:16:20
10738
原创 PyTorch:模型层和nn container
-柚子皮-查看模型每层输出详情Keras有一个简洁的API来查看模型的每一层输出尺寸,这在调试网络时非常有用。在PyTorch中也可以实现这个功能。使用很简单,如下用法:from torchsummary import summarysummary(your_model, input_size=(channels, H, W))input_size 是根据你自己的网络模型的输入尺寸进行设置。from:-柚子皮-ref:...
2020-10-20 23:41:19
619
原创 PyTorch:模型训练-模型参数parameters
-柚子皮-模型层的命名方式命名方式 {自动识别名称如bn_layers}.0.weight if self.use_bn: self.bn_layers = nn.ModuleList( [nn.BatchNorm1d(hidden_units[i + 1]) for i in range(len(hidden_units) - 1)])模型参数初始化神经网络的初始化是训练流程的重要基础环节,会对模型的性能、...
2020-10-20 23:39:40
6381
原创 PyTorch:tensor-数据处理
-柚子皮-functional.one_hot函数自动检测类别个数import torch.nn.functional as Fimport torchtensor = torch.arange(0, 5) % 3 # tensor([0, 1, 2, 0, 1])one_hot = F.one_hot(tensor)# 输出:# tensor([[1, 0, 0],# [0, 1, 0],# [0, 0, 1],# [1,...
2020-10-20 23:38:23
987
原创 PyTorch:Encoder-RNN|LSTM|GRU
-柚子皮-#RNNrnn=nn.RNN(10,20,2) #(each_input_size, hidden_state, num_layers)input=torch.randn(5,3,10) # (seq_len, batch, input_size)h0=torch.randn(2,3,20) #(num_layers * num_directions, batch, hidden_size)output,hn=rnn(input,h0)print(output.size(),hn.s
2020-09-22 23:27:17
917
原创 PyTorch:Embedding初始化及自定义
-柚子皮-torch.nn.Embedding(num_embeddings: int, embedding_dim: int, padding_idx: Optional[int] = None, max_norm: Optional[float] = None, norm_type: float = 2.0, scale_grad_by_freq: bool = False, sparse: bool = False, _weight: Optional[torch.Tensor] = None)
2020-09-22 23:24:19
5075
原创 PyTorch:数据读取2 - Dataloader
-柚子皮-nlp中的dataloader的使用torch.utils.data.DataLoader中的参数: dataset (Dataset) – dataset from which to load the data. batch_size (int, optional) – how many samples per batch to load (default: 1). shuffle (bool, optional) – set to True to have the dat
2020-09-11 10:10:51
3012
原创 PyTorch:数据读取1 - Datasets及数据集划分
-柚子皮-什么是Datasets?在输入流水线中,准备数据的代码是这么写的data = datasets.CIFAR10("./data/", transform=transform, train=True, download=True)datasets.CIFAR10就是一个Datasets子类,data是这个类的一个实例。为什么要定义Datasets?PyTorch提供了一个工具函数torch.utils.data.DataLoader。通过这个类,我们可以让数据变成mini-b
2020-09-10 22:31:02
4239
原创 中文分词:正向最大匹配与逆向最大匹配
正向(前向)最大匹配与逆向(后向)最大匹配。所谓词典正向最大匹配就是将一段字符串进行分隔,其中分隔 的长度有限制,然后将分隔的子字符串与字典中的词进行匹配,如果匹配成功则进行下一轮匹配,直到所有字符串处理完毕,否则将子字符串从末尾去除一个字,再进行匹配,如此反复。示例说明示例1:对字符串:“研究生命的起源”进行分词。假定我们的字典中的相关内容如下:研究研究生...
2020-04-15 00:36:36
5858
原创 深度学习:批归一化和层归一化Batch Normalization、Layer Normalization
深度神经网络模型训练难,其中一个重要的现象就是 Internal Covariate Shift. Batch Norm 自 2015 年由Google 提出之后, Layer Norm / Weight Norm / Cosine Norm 等也横空出世。Normalized的作用1.1 独立同分布与白化1.2 深度学习中的 Internal Covariate Sh...
2020-03-10 00:44:29
10304
4
原创 Tensorflow:variable变量和变量空间
name_scope: 为了更好地管理变量的命名空间而提出的。比如在 tensorboard 中,因为引入了 name_scope, 我们的 Graph 看起来才井然有序。 variable_scope: 大部分情况下,跟 tf.get_variable() 配合使用,实现变量共享的功能。with tf.variable_scope('scopename', reu...
2019-08-01 21:13:12
3815
原创 Tensorflow:模型保存和服务
tensorflow模型保存和使用TensorFlow是通过构造Graph的方式进行深度学习,任何操作(如卷积、池化等)都需要operator,保存和恢复操作也不例外。在tf.train.Saver()类初始化时,用于保存和恢复的save和restore operator会被加入Graph,所以类初始化操作应在搭建Graph时完成。TensorFlow会将变量保存在二进制checkpoint文...
2019-07-13 17:38:28
2623
1
原创 PyTorch:安装和配置
安装pip安装pip3 install torch torchvisionmacos还需要安装brew install libomp否则出错:ImportError: dlopen(/...torch/_C.cpython-36m-darwin.so, 9): Library not loaded: /usr/local/opt/libomp/lib/libomp.dylib...
2019-07-13 17:09:56
1203
原创 深度学习:bert embedding用法详解
环境配置下载bert已训练好的模型如BERT-Base, Chinese: Chinese Simplified and Traditional, 12-layer, 768-hidden, 12-heads, 110M parameters解压到目录/.../chinese_L-12_H-768_A-12/,其中...为你自己的某个目录。[https://github.co...
2019-07-13 17:09:27
6024
1
原创 Keras:模型评估
keras模型评估keras能用的模型评估不多,有的可能是这些评估在keras框架下不准确,如果要用,可以使用tensorflow或者sklearn中的评估模型。tensorflow:from tensorflow.python.estimator import trainingresult = training.train_and_evaluate(dnn_estimat...
2019-07-13 17:08:37
1795
3
原创 Tensorflow:常见错误
Tensorflow SSE报错TensorFlow wasn't compiled to use SSE (etc.) instructions, but these are available解决:os.environ['TF_CPP_MIN_LOG_LEVEL']='2'[TensorFlow wasn't compiled to use SSE (etc.) instru...
2019-07-13 17:06:54
921
原创 Tensorflow:可视化学习TensorBoard
用 TensorBoard 来展现 TensorFlow 图,绘制图像生成的定量指标图以及显示附加数据(如其中传递的图像)。tensorflow.summaryscalar一般用于数值的显示如tf.summary.scalar(softmax_cross_entropy) tf.summary.scalar(loss)histogram一般用于向量的分布...
2019-07-13 17:06:31
2227
原创 Tensorflow:模型调参
Tensorflow中使用gridsearch1 使用tf.contrib.learn.estimators使用tf中自带的Estimator将自定义的tf模型转换成估计器,输入到sklearn中的gridesearch运行。# My custom model. # Feature request: New params dict with values filled ...
2019-07-13 17:06:14
697
原创 Tensorflow:模型训练tensorflow.train
深度学习训练中的几个概念(1)batchsize:批大小。在深度学习中,一般采用SGD训练,即每次训练在训练集中取batchsize个样本训练;一次Forword运算以及BP运算中所需要的训练样本数目,其实深度学习每一次参数的更新所需要损失函数并不是由一个{data:label}获得的,而是由一组数据加权得到的,这一组数据的数量就是[batch size]。当然batch size 越大...
2019-07-13 17:05:51
1579
Parameter estimation for text analysis
2016-05-23
pdfstudio安装文件及破解
2016-03-24
matplotlib安装包
2016-01-02
pandas安装文件
2016-01-01
matplotlib安装文件
2016-01-01
GB2UTF8.exe
2015-08-07
Introduction to Computation and Programming Using Python
2015-05-03
A First Course in Probability 第8版 Sheldon Ross
2014-10-31
wps symbol fonts
2017-02-27
Anand.Rajaraman-Mining of Massive Datasets
2016-06-01
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人