- 博客(26)
- 资源 (5)
- 收藏
- 关注
原创 高维空间中, cosine similarity 的 k-近邻 搜索
帮我想个问题, 高维(dimension=200+)空间中, 点在某个集合A(|A|>40W)中的 K-近邻 cosine similarity 搜索, 有什么好的 hash 或 space split 方法么? 这是目前手头的一个实际问题, 用于 word2vec 的 k-邻近搜索, 我开始想到的是 K-D树, 可以又一想, 它处理Euclidean Distance 很直观, 似乎 不适于 c
2017-09-29 15:07:54 966
原创 K-D 树, 高维空间索引
简介K-D Tree, K-Dimensional Tree, 对高维的点作空间划分的一种二叉树.传统的文本搜索是这样的: 一个doc 有若干个field, 分词后添加到倒排索引中, 然后按照 tf-idf 等思想计算match(query,doc), 然后取得分最高的top-k.那么对于高维的点或向量 v=(x1,...,xd)v=(x_1, ... , x_d), 即给出一个集合 S={v|
2017-09-28 10:46:19 1299
原创 Monte Carlo , 蒙特卡洛算法
简介1.Monte Carlo method蒙特卡洛方法, 一种用于物理仿真与计算统计的算法, 它基于随机采样.1.1例子可以用于计算任意积分的值. ∫10f(x)dx\int_0^1 f(x) dx 当f(x)过于复杂, 无法用公式得出解析解时, 就可以通过随机采样来逼近它的解. 以 f(x)=x2f(x)=x^2 举例. 图 1-1 定积分 ∫10x2dx\int_0^1 x^2 dx
2017-09-27 15:45:37 2711
原创 常用Hash类别及三方库实现
1.简介参考simhash was developed by Moses Charikar and is described in his paper, Simhash Princeton Univ. PaperSimhash explained
2017-09-27 10:42:36 751
原创 样本间的不同相似性度量
简介1.hamming distance在信息论里面, 汉明距离用来刻画两个字符串之间的相似程度. Q:如何计算? 从前往后遍历两个字符串, 若对应位置字符不同, distance+1, 遍历完毕后得到汉明距离.1.1例子 图1 The Hamming distance between various A and B从图1 中可以看出, 汉明距离既可以用来比较字符...
2017-09-27 10:28:05 3080
原创 tensorflow 模型的持久化
简介持久化的意义在于: 1. 可以保存训练的中间结果, 下次从断点开始继续训练. 2. 将模型的训练/预测/在线服务部署 独立开来. 如表格所示, 根据 model-api 与 save-format 的不同, 还有C12∗C12=4C21∗C21=4C_2^1*C_2^1=4种搭配. model-api save-format estimator ch...
2017-09-26 17:41:21 1027
原创 RNN 简介及LSTM,GRU实现
1. 简介RNN, Recurrent Neural Network, 循环神经网络. 与普通前馈网络最大的区别是, 网络节点在t时刻的输出不仅依赖于t时刻的输入, 还依赖前一时刻的输出与状态. 即 ht,ct=f(ht−1,ct−1,xt)h_t,c_t=f(h_{t-1},c_{t-1},x_t) hh 为cell 输出, cc 为cell 状态.2. time_step因为t, t-1
2017-09-25 11:32:59 924
原创 使用 c++ 扩展python, pybind11
1. 简介python 是解释型语言, 语法写起来方便但执行速度较慢. c++ 等编译语言速度最快, 但指针, 数组越界等 使用易犯错. 于是兼顾人的开发效率与执行效率, 有了这样的思想: 关键模块用C/C++ 写, 调用的时候使用 python 来调用, 即 extending python with c/c++.这一设想被广泛地应用于各个解释型/ 托管 语言中. 如 j...
2017-09-23 12:04:59 825
原创 LDA, 文档主题生成模型 (undone)
LDA, Latent Dirichlet allocation. 可以用来识别大规模文档集(document collection)或语料库(corpus)中潜藏的主题信息。
2017-09-21 14:54:37 1007
原创 TextRank, 关键词和句子抽取
1. 简介TextRank, 基于图模型的关键词和句子抽取.2. 原理参考原始论文, TextRank: Bringing Order into Texts
2017-09-15 16:45:14 3772
原创 PageRank 简介
1.简介google 用 PageRank 来衡量网页的重要程度, 并作为排序的因子之一. 论文见 参考[1]. 论文一开始是这么说的: The importance of a Web page is an inherently subjective matter, which depends on the readers interests, knowledge and attitudes
2017-09-15 16:24:44 678
原创 图像识别 常用数据集
1.MNISTMNIST, [em’nist]. 0~9的手写字体.format 图像尺寸, 28*28. 像素取值为[0,1], 由浅到深.size train set: 60K test set: 10K2. Cifar-1010个不同实体的彩色照片. 飞机, 汽车, 鸟, 猫, 鹿, 狗, 青蛙, 马, 船, 卡车.format 图像尺寸 32*32size 60 K.
2017-09-11 09:52:25 6599
原创 python TypeHint, 类型提示
1.简介def fun(x): x.??? #can't hint or check写函数的时候, 编译器并不知道形参x的类型, 所以你调用x的字段与方法的时候, IDE 既不能提示也不能检查, 让人很捉急. 这是动态语言的通病. 所以很多人更喜欢java, c++.但各种语言都是与时俱进的, javascript 有了 超集 TypeScript. 那么python 也在语言级别加
2017-09-08 09:40:46 20333 1
原创 NLP 分类问题的讨论
不同形态的文本短文本 商品评论,电影短评, 微博等内容, 句子的长度在50个单词以内。长文本 长文章, 1000单词级别。多元素内容 像电商的导购文章, 有文本,图片, 短视频, 商品信息等。分类相关手段对比Text CNN 需要固定文本长度,如50单词, 过短的进行zero-padding, 长的需要截断。FastText 输出为单词的vector时, 无法有效表示长文本。
2017-09-06 15:41:50 2320
原创 CNN for 图像与视觉
1.简介图像是二维的, 所以卷积, 池化用于提取特征比较直观. 2.LeNet-5LeNet-5 是一种典型的用来识别数字的卷积神经网络, 共有7层(不包含输入),每层都包含可训练参数(连接权重)。
2017-09-06 09:07:53 636
原创 TensorFlow CNN 相关类与方法
卷积tf.nn.conv2d(input, filter, strides, padding, use_cudnn_on_gpu=None,data_format=None, name=None) 即tensorflow.python.ops.gen_nn_ops.conv2d(), Computes a 2-D convolution given 4-D input and filter t
2017-09-05 20:05:46 371
原创 迁移学习 Transfer learning
简介迁移学习, Transfer learning. 顾名思义就是就是把已学好的模型参数迁移到新的模型来提升效果. 这里的提升主要为:加速收敛 考虑到大部分数据或任务是存在相关性的,所以通过transfer learning, 我们可以将已经学到的 parameter 分享给新模型, 从而加快并优化模型的学习, 不用像之前那样 from scratch.例子TextCNN, 词向量表示那里可
2017-09-05 10:28:15 608
原创 Text-CNN 文本分类
1.简介TextCNN 是利用卷积神经网络对文本进行分类的算法,由 Yoon Kim 在 “Convolutional Neural Networks for Sentence Classification” 一文 (见参考[1]) 中提出. 是2014年的算法. 图1-1 参考[1] 中的论文配图 图1-2 网络盗图合理性: 深度学习模型在计算机视觉与语音识别方面取得了卓越...
2017-09-05 09:39:30 81088 7
原创 TensorFlow RNN 相关类与方法
RNN又包括LSTM, GRU等.1. RNNtensorflow.python.layers.base.Layer 类, 表示网络中的一层.tensorflow.python.ops.rnn_cell_impl.RNNCell(base_layer.Layer) 抽象类, 表示RNN中的一层. 叫作cell更形象.tensorflow.python.ops.rnn_cell_impl.M
2017-09-04 15:00:20 1269
原创 GloVe 词向量模型
GloVe is an unsupervised learning algorithm for obtaining vector representations for words. GloVe: Global Vectors for Word Representation
2017-09-04 10:05:08 3946
原创 py http请求, urllib 及requests 库
1.简介http相关的类库. 这里讲的是python 3.6 版本.2.常用类与方法urllib.request.urlopen(‘http://www.python.org/‘)urllib.request 模块. urlopen(url_str) 请求URL并返回 HTTPResponse. urlretrieve(url,path) 请求URL并将结果保存在磁盘中. 可以用来下载网页...
2017-09-04 08:38:53 469
原创 NLP 常用数据集及语料库
1.Sogou News Corpus搜狗新闻语料库. Containing in total 2,909,551 news articles in various topic channels. 参考文献[1] 中是这么描述与使用的: : There are a large number categories but most of them contain only few articl
2017-09-02 17:04:18 10912
原创 FastText 词向量与文本分类
1.简介FastText, 一种技术, 也是 An NLP library by Facebook.2.原理3.FastText libraryGitHub: fastText 它由两部分组成: word representation learning 与 text classification.3.1 word representation learning命令$ ./fasttext skip
2017-09-01 11:38:19 9032
win7防音量过大自干预程序_ vs2010完整解决方案.zip
2013-09-21
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人