自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(57)
  • 资源 (1)
  • 收藏
  • 关注

原创 相似度计算

衡量变量之间的相似度

2023-12-26 21:42:13 463 1

原创 推荐系统中的偏置问题-bias和debias

推荐系统中存在很多偏差,如选择偏差、位置偏差、曝光偏差和流行度偏差等

2023-12-26 13:51:02 1126

原创 jupyter内核

创建新环境并写入jupyter内核

2023-08-05 10:20:17 130

原创 如何关闭服务端口?

关闭端口服务

2023-07-25 16:08:48 177

原创 次梯度下降法

次梯度下降法

2023-03-26 11:56:07 89

转载 预训练模型五大模型结构

预训练模型5大模型结构

2023-02-21 18:16:59 2271

原创 BERT的变种

bert以及bert各种变种概述

2023-02-20 23:37:26 533

原创 带噪学习-概述

在实际应用的时候,我们的样本不会是完全干净的,即存在噪声样本。那使用存在噪声的样本时,我们如何更有效的进行模型学习呢?

2023-02-19 20:43:30 1159

原创 FLAT:Flat-LAttice Transformer

中文NLP,char-level和word-level如何有效结合?

2023-02-19 13:11:33 818

原创 为啥word2vec的向量是静态的?

word2vec静态向量

2022-07-27 20:38:27 486 1

原创 Deformable CNN 和 Deformable Attention

论文地址:Deformable Convolutional Networks针对视觉任务中,如何根据物体的尺寸、位置、视角等来调整模型的几何变化,一般传统做法有:1)通过数据增强等方式,增加训练数据的多样性2)使用transformation-invariant的特征和算法,比如TI-pooling (transformation-invariant pooling)和SIFT(scale invariant feature transform)但这些方法有一些缺点:比如1)需要假设几何

2022-02-17 15:12:45 4851

原创 Pooling

RoI pooling感兴趣区域池化(Region of interest pooling)是使用卷积神经网络在目标检测任务中广泛使用的操作。其目的是对非均匀尺寸的输入执行最大池化以获得固定尺寸的特征图。对于来自输入列表的每个感兴趣区域,它采用与其对应的输入特征图的一部分并将其缩放到某个预定义的大小(例如,7×7): 将区域提案划分为相等大小的部分(其数量与输出的维度相同) 找到每个部分的最大值 将这些最大值复制到输出(max pooling) ...

2022-02-17 14:37:06 466

原创 xgboost为啥使用二阶泰勒展开?

1. 直接理解一阶导指引梯度方向,二阶导指引梯度方向如何变化,所以二阶信息本身就能让梯度收敛更快更准确。这里可以对比牛顿法和SGD。牛顿法是二阶收敛,梯度下降是一阶收敛,当初始点选取合理的情况下,牛顿法比梯度下降法收敛的速度快。通俗的讲,比如你想找一条最短的路径走到一个盆地的最底部,梯度下降法每次只从你当前所处位置选一个坡度最大的方向走一步,牛顿法在选择方向时,不仅会考虑坡度是否够大,还会考虑你走了一步之后,坡度是否会变得更大。所以,可以说牛顿法比梯度下降法看得更远一点,能更快地走到最底部。(牛顿法目光

2021-09-13 14:17:58 2983

转载 分类树vs回归树

参考分类树就是面向分类的,每个决策树最末端的叶子结点出来的是一个分类标签;回归树就是面向回归的,回归就是拟合函数一样,输出连续值1.分类树的最后一层叶子结点后才是分类标签,其他时候的节点都不是,可以认为是某个特征属性。2.回归树的所有节点可以理解为都是一个东西,就是待回归属性,比如温度,最后的回归值是把树走完走到最后一个节点的值。...

2021-05-25 17:19:35 2890

转载 线程池的作用

https://zhuanlan.zhihu.com/p/259624983线程池 Thread Pool线程池是一种池化的技术,类似的还有数据库连接池、HTTP 连接池等等。池化的思想主要是为了减少每次获取和结束资源的消耗,提高对资源的利用率。比如在一些偏远地区打水不方便的,大家会每段时间把水打过来存在池子里,这样平时用的时候就直接来取就好了。线程池同理,正是因为每次创建、销毁线程需要占用太多系统资源,所以我们建这么一个池子来统一管理线程。用的时候从池子里拿,不用了就放回来,也不用你销.

2021-05-17 22:53:11 117

转载 缓存类设计

https://blog.csdn.net/ybn6775/article/details/80865425FIFO缓存策略:首先缓存两个基本的特点, 一个是缓存空间有限, 另一个是数据过期,缓存空间有限就需要我们对有限的控件进行利用,数据的置换策略非常重要,基本的置换策略有FIFO、LRU、LFU,其中FIFO最为简单,其基本假设就是最近被加载进来的数据下次使用到的可能性大于之前被加载进来的数据,对于符合这种假设的场景较为适用。其python代码如下: class FI...

2021-05-17 22:41:32 115

原创 google s2

2021-04-12 16:51:40 216

原创 python 取括号内容

去除括号内容pat = re.compile('\(.*?\)’)print pat.sub("", s, 1)取括号内容print re.findall('\((.*?)\)', s)[0]

2021-04-12 15:33:02 704

原创 python编码问题

1.>>> print "\u751F\u5316\u5371\u673A".encode('utf-8').decode('unicode_escape')>>> print "\u751F\u5316\u5371\u673A".encode('utf-8')>>> a =u"生化危机”>>> print a>>> print a.encode('utf-8’)2. py...

2021-04-12 15:30:03 131

原创 高德poi爬虫

1. 点位周边搜索https://gaode.com/service/poiInfo?query_type=RQBXY&pagesize=20&pagenum=1&qii=true&cluster_state=5&need_utd=true&utd_sceneid=1000&div=PC1000&addr_poi_merge=true&is_classify=true&zoom=14&longitude=116.50

2021-04-12 15:28:17 410

原创 zsh和bash切换

切换bashchsh -s /bin/bash切换zshchsh -s /bin/zsh

2021-04-12 15:27:38 206

原创 geohash精度

2021-04-12 15:17:01 142

转载 Django

Django已经成为web开发者的首选框架,是一个遵循 MVC 设计模式的框架。MVC是Model、View、Controller三个单词的简写,分别代表模型、视图、控制器。Django其实也是一个MTV 的设计模式。MTV是Model、Template、View三个单词的简写,分别代表模型、模版、视图。https://www.cnblogs.com/feixuelove1009/p/5823135.html...

2021-04-11 22:43:29 118

原创 GIS坐标系

http://cnodejs.org/topic/564c0a27e4766d487f6fe38d地球坐标 (WGS84):国外使用,比如谷歌地图火星坐标 (GCJ-02)(也叫国测局坐标系):国内大部分地图使用,比如高德地图百度坐标 (BD-09):百度地图使用//中国经纬度的范围(火星坐标)double minLatitude = 3.86;double maxLatitude = 53.55;double minLongitude = 73.66;double m.

2021-04-11 22:40:06 185

原创 中文繁简转换

1.https://segmentfault.com/a/1190000005089690Open Chinese Convert(OpenCC)是一個中文簡繁轉換開源項目,提供高質量的簡繁轉換詞庫和可供調用的函數庫(libopencc)。還提供命令行簡繁轉換工具,人工校對工具,詞典生成程序,以及圖形用戶界面。brew install opencc将繁体转为简体的命令如下:opencc -i wiki_zh.text -o wiki_zhs.text -c zht2zhs_config.j.

2021-04-11 22:37:42 288

原创 换行符

换行符:windows:’\r\n’mac: ‘\r’Linux: ‘\n’转换方式:Windows->Linux : sed -i 's/\r$//' file.txtWindows->Mac : cat old.txt | tr -d "\n" > new.txtMac->Windows : cat old.txt | tr "\r" "\n" | sed 's/$/\r/' > new.txtMac->Linux : ca..

2021-04-11 22:35:31 146

原创 candidate sampling

Sampled SoftmaxHierarchical softmaxNegative SamplingNoise Contrastive Estimation(NCE)Info-NCE

2021-04-11 22:30:42 94

原创 负对数似然 交叉熵 mse mae的区别

交叉熵的介绍见https://blog.csdn.net/jzwei023/article/details/115496906?spm=1001.2014.3001.5501交叉熵 vs 二阶Loss函数逻辑回归一些简单的网络中,我们会使用MSE(均方误差mean-square error)这样的二阶Loss函数。然而二阶loss函数,会存在一个问题。ANN被设计的一个最大优势在于可以根据误差进行学习来调整参数。误差越大,则希望调整的幅度越大,从而收敛速度越快。而二阶loss函数则有可能误差越大

2021-04-11 22:22:33 1087

原创 tensorflow安装-Mac

conda create -n tensorflow112_2 python=2.7source activate tensorflow112_2pip install tensorflow==1.12 (tensorflow-1.12.0-cp27-cp27m-macosx_10_11_x86_64.whl)

2021-04-11 22:03:16 219

原创 pytorch安装

先安装pytorch3环境: conda create -n pytorch3 python=3.6然后针对pytorch3安装:conda install -n pytorch3 pytorch torchvision如果官网下载安装比较慢,使用清华镜像:https://blog.csdn.net/xo3ylAF9kGs/article/details/104104041/...

2021-04-11 22:01:50 58

原创 查看python、numpy、tensorflow版本和路径

1、查看python版本方法一:  python -V  注意:‘-V‘中‘V’为大写字母,只有一个‘-’方法二:  python --version    注意:‘--version'中有两个‘-’2、查看python安装位置方法一:   python -c "import sys; print sys.executable"方法二:  python -c "import os; print os.sys.executable"  python -c ".

2021-04-11 21:56:58 874

原创 GBDT小结

GBDT的核心就在于,每一棵树学的是之前所有树结论和的残差(负梯度),这个残差就是一个加预测值后能得到真实值的累加量。比如A的真实年龄是18岁,但第一棵树的预测年龄是12岁,差了6岁,即残差为6岁。那么在第二棵树里面我们把A的年龄设为6岁去学习,比如第二棵树的结论是5岁,则A仍然存在1岁的残差,第三棵树里面把A的年龄设为1岁去学习,继续学。Boosting的最大好处在于,每一步的残差计算其实变相的增大了分错的instance的权重,而已经分对的instance则都趋于0。这样后面的树就能越来越专注那些前面被

2021-04-11 21:27:14 88

原创 向量检索综述

各向量检索方法的性能比较:https://blog.csdn.net/luoyexuge/article/details/84235421Faiss (Facebook AI Similarity Search)针对高维空间中的海量数据,提供了高效且可靠的检索方法。AnnoyAnnoy是 Spotify开源的高维空间求近似最近邻的库,在 Spotify 使用它进行音乐推荐。...

2021-04-07 22:39:45 105

原创 多任务学习

2021-04-07 22:27:49 44

转载 聚类算法

基于划分聚类算法(partition clustering)k-means: 是一种典型的划分聚类算法,它用一个聚类的中心来代表一个簇,即在迭代过程中选择的聚点不一定是聚类中的一个点,该算法只能处理数值型数据 k-modes: K-Means算法的扩展,采用简单匹配方法来度量分类型数据的相似度 k-prototypes: 结合了K-Means和K-Modes两种算法,能够处理混合型数据 k-medoids: 在迭代过程中选择簇中的某点作为聚点,PAM是典型的k-med

2021-04-07 22:20:14 156

原创 序列标注中的几种标签方案

标签列表B,即Begin,表示开始 I,即Intermediate,表示中间 E,即End,表示结尾 S,即Single,表示单个字符 O,即Other,表示其他,用于标记无关字符常见标签方案基于上面的标签列表,通过选择该列表的子集,可以得到不同的标签方案。同样的标签列表,不同的使用方法,也可以得到不同的标签方案。常用的较为流行的标签方案有如下几种:IOB1: 标签I用于文本块中的字符,标签O用于文本块之外的字符,标签B用于在该文本块前面接续则一个同类型的文本块情况下的第一个字符。

2021-04-07 22:09:45 316

原创 交叉熵和相对熵(KL散度)

信息量熵当一个事件发生的概率为 P(x),那么它的信息量是 -log(p(x))。那么熵就是信息量的期望。假如事件X有n种可能x1,x2,...,xn,发生xi的概率是p(xi),那么熵H(X)定义如下:对于0-1分布问题(二项分布的特例),熵的计算方法可以简化为如下算式:相对熵(KL散度)相对熵(relative entropy),又被称为Kullback-Leibler散度(Kullback-Leibler divergence)或信息散度(information d

2021-04-07 22:05:51 467

原创 文本表征 Text Representation

文本表征有哪些方法:https://www.infoq.cn/article/PFvZxgGDm27453BbS24W

2021-03-27 20:06:49 1513

原创 半监督之Self-Training & Co-Training

Self-training利用已标注样本L,对未标注数据U进行标注用所有已标注样本L进行模型训练,得到模型F 利用F对未标注数据进行预测,将置信度高的数据放入到L集合中 重复1和2,直到所有数据被标注或者无置信度高的新标注数据Co-training利用已标注样本L,对未标注数据U进行标注数据分成2个view(比如根据2个特征维度划分),分别为L1和L2 进行模型训练,使用L1得到模型F1,使用L2得到模型F2 利用F1和F2分别对未标注数据U进行预测,把F1预测置信度高的数据.

2021-03-21 23:04:08 549

原创 Graph Embedding

图嵌入学习用低维、稠密、实值的向量表示网络中的节点(含有语义关系,低维,自适应性),且可以将异构信息投影到同一低维空间。Graph Embedding 算法主要经历了以下三代的发展:第一代:基于矩阵特征向量(MDS、LLE)第二代:基于Random Walk(Deep Walk 、Node2Vec)第二代:基于Deep Learning(SDNE、GCN、GraphSAGE)Deep walk主要思想就是在图中通过random walk的方法得到node序列,然后借鉴word2...

2021-03-20 14:07:04 393

计算机网络(第4版)答案

计算机网络(第4版)课后习题(中文) 国外经典教材(大学教材)

2009-09-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除