自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

yichudu

技术博客

  • 博客(26)
  • 资源 (5)
  • 收藏
  • 关注

原创 高维空间中, cosine similarity 的 k-近邻 搜索

帮我想个问题, 高维(dimension=200+)空间中, 点在某个集合A(|A|>40W)中的 K-近邻 cosine similarity 搜索, 有什么好的 hash 或 space split 方法么? 这是目前手头的一个实际问题, 用于 word2vec 的 k-邻近搜索, 我开始想到的是 K-D树, 可以又一想, 它处理Euclidean Distance 很直观, 似乎 不适于 c

2017-09-29 15:07:54 966

原创 K-D 树, 高维空间索引

简介K-D Tree, K-Dimensional Tree, 对高维的点作空间划分的一种二叉树.传统的文本搜索是这样的: 一个doc 有若干个field, 分词后添加到倒排索引中, 然后按照 tf-idf 等思想计算match(query,doc), 然后取得分最高的top-k.那么对于高维的点或向量 v=(x1,...,xd)v=(x_1, ... , x_d), 即给出一个集合 S={v|

2017-09-28 10:46:19 1299

原创 Monte Carlo , 蒙特卡洛算法

简介1.Monte Carlo method蒙特卡洛方法, 一种用于物理仿真与计算统计的算法, 它基于随机采样.1.1例子可以用于计算任意积分的值. ∫10f(x)dx\int_0^1 f(x) dx 当f(x)过于复杂, 无法用公式得出解析解时, 就可以通过随机采样来逼近它的解. 以 f(x)=x2f(x)=x^2 举例. 图 1-1 定积分 ∫10x2dx\int_0^1 x^2 dx

2017-09-27 15:45:37 2711

原创 常用Hash类别及三方库实现

1.简介参考simhash was developed by Moses Charikar and is described in his paper, Simhash Princeton Univ. PaperSimhash explained

2017-09-27 10:42:36 751

原创 样本间的不同相似性度量

简介1.hamming distance在信息论里面, 汉明距离用来刻画两个字符串之间的相似程度. Q:如何计算? 从前往后遍历两个字符串, 若对应位置字符不同, distance+1, 遍历完毕后得到汉明距离.1.1例子 图1 The Hamming distance between various A and B从图1 中可以看出, 汉明距离既可以用来比较字符...

2017-09-27 10:28:05 3080

原创 tensorflow 模型的持久化

简介持久化的意义在于: 1. 可以保存训练的中间结果, 下次从断点开始继续训练. 2. 将模型的训练/预测/在线服务部署 独立开来. 如表格所示, 根据 model-api 与 save-format 的不同, 还有C12∗C12=4C21∗C21=4C_2^1*C_2^1=4种搭配. model-api save-format estimator ch...

2017-09-26 17:41:21 1027

原创 RNN 简介及LSTM,GRU实现

1. 简介RNN, Recurrent Neural Network, 循环神经网络. 与普通前馈网络最大的区别是, 网络节点在t时刻的输出不仅依赖于t时刻的输入, 还依赖前一时刻的输出与状态. 即 ht,ct=f(ht−1,ct−1,xt)h_t,c_t=f(h_{t-1},c_{t-1},x_t) hh 为cell 输出, cc 为cell 状态.2. time_step因为t, t-1

2017-09-25 11:32:59 924

原创 使用 c++ 扩展python, pybind11

1. 简介python 是解释型语言, 语法写起来方便但执行速度较慢. c++ 等编译语言速度最快, 但指针, 数组越界等 使用易犯错. 于是兼顾人的开发效率与执行效率, 有了这样的思想: 关键模块用C/C++ 写, 调用的时候使用 python 来调用, 即 extending python with c/c++.这一设想被广泛地应用于各个解释型/ 托管 语言中. 如 j...

2017-09-23 12:04:59 825

原创 LDA, 文档主题生成模型 (undone)

LDA, Latent Dirichlet allocation. 可以用来识别大规模文档集(document collection)或语料库(corpus)中潜藏的主题信息。

2017-09-21 14:54:37 1007

原创 TextRank, 关键词和句子抽取

1. 简介TextRank, 基于图模型的关键词和句子抽取.2. 原理参考原始论文, TextRank: Bringing Order into Texts

2017-09-15 16:45:14 3772

原创 PageRank 简介

1.简介google 用 PageRank 来衡量网页的重要程度, 并作为排序的因子之一. 论文见 参考[1]. 论文一开始是这么说的: The importance of a Web page is an inherently subjective matter, which depends on the readers interests, knowledge and attitudes

2017-09-15 16:24:44 678

原创 图像识别 常用数据集

1.MNISTMNIST, [em’nist]. 0~9的手写字体.format 图像尺寸, 28*28. 像素取值为[0,1], 由浅到深.size train set: 60K test set: 10K2. Cifar-1010个不同实体的彩色照片. 飞机, 汽车, 鸟, 猫, 鹿, 狗, 青蛙, 马, 船, 卡车.format 图像尺寸 32*32size 60 K.

2017-09-11 09:52:25 6599

原创 python TypeHint, 类型提示

1.简介def fun(x): x.??? #can't hint or check写函数的时候, 编译器并不知道形参x的类型, 所以你调用x的字段与方法的时候, IDE 既不能提示也不能检查, 让人很捉急. 这是动态语言的通病. 所以很多人更喜欢java, c++.但各种语言都是与时俱进的, javascript 有了 超集 TypeScript. 那么python 也在语言级别加

2017-09-08 09:40:46 20333 1

原创 NLP 分类问题的讨论

不同形态的文本短文本 商品评论,电影短评, 微博等内容, 句子的长度在50个单词以内。长文本 长文章, 1000单词级别。多元素内容 像电商的导购文章, 有文本,图片, 短视频, 商品信息等。分类相关手段对比Text CNN 需要固定文本长度,如50单词, 过短的进行zero-padding, 长的需要截断。FastText 输出为单词的vector时, 无法有效表示长文本。

2017-09-06 15:41:50 2320

原创 CNN for 图像与视觉

1.简介图像是二维的, 所以卷积, 池化用于提取特征比较直观. 2.LeNet-5LeNet-5 是一种典型的用来识别数字的卷积神经网络, 共有7层(不包含输入),每层都包含可训练参数(连接权重)。

2017-09-06 09:07:53 636

原创 TensorFlow CNN 相关类与方法

卷积tf.nn.conv2d(input, filter, strides, padding, use_cudnn_on_gpu=None,data_format=None, name=None) 即tensorflow.python.ops.gen_nn_ops.conv2d(), Computes a 2-D convolution given 4-D input and filter t

2017-09-05 20:05:46 371

原创 迁移学习 Transfer learning

简介迁移学习, Transfer learning. 顾名思义就是就是把已学好的模型参数迁移到新的模型来提升效果. 这里的提升主要为:加速收敛 考虑到大部分数据或任务是存在相关性的,所以通过transfer learning, 我们可以将已经学到的 parameter 分享给新模型, 从而加快并优化模型的学习, 不用像之前那样 from scratch.例子TextCNN, 词向量表示那里可

2017-09-05 10:28:15 608

原创 Text-CNN 文本分类

1.简介TextCNN 是利用卷积神经网络对文本进行分类的算法,由 Yoon Kim 在 “Convolutional Neural Networks for Sentence Classification” 一文 (见参考[1]) 中提出. 是2014年的算法. 图1-1 参考[1] 中的论文配图 图1-2 网络盗图合理性: 深度学习模型在计算机视觉与语音识别方面取得了卓越...

2017-09-05 09:39:30 81088 7

原创 TensorFlow RNN 相关类与方法

RNN又包括LSTM, GRU等.1. RNNtensorflow.python.layers.base.Layer 类, 表示网络中的一层.tensorflow.python.ops.rnn_cell_impl.RNNCell(base_layer.Layer) 抽象类, 表示RNN中的一层. 叫作cell更形象.tensorflow.python.ops.rnn_cell_impl.M

2017-09-04 15:00:20 1269

原创 GloVe 词向量模型

GloVe is an unsupervised learning algorithm for obtaining vector representations for words. GloVe: Global Vectors for Word Representation

2017-09-04 10:05:08 3946

原创 py jieba 分词库

py jieba 分词库

2017-09-04 09:01:56 750

原创 py pypinyin 拼音库

py pypinyin 库

2017-09-04 09:01:35 2611

原创 py http请求, urllib 及requests 库

1.简介http相关的类库. 这里讲的是python 3.6 版本.2.常用类与方法urllib.request.urlopen(‘http://www.python.org/‘)urllib.request 模块. urlopen(url_str) 请求URL并返回 HTTPResponse. urlretrieve(url,path) 请求URL并将结果保存在磁盘中. 可以用来下载网页...

2017-09-04 08:38:53 469

原创 CNN 卷积神经网络

#简介 的 # 卷积

2017-09-03 20:06:46 467

原创 NLP 常用数据集及语料库

1.Sogou News Corpus搜狗新闻语料库. Containing in total 2,909,551 news articles in various topic channels. 参考文献[1] 中是这么描述与使用的: : There are a large number categories but most of them contain only few articl

2017-09-02 17:04:18 10912

原创 FastText 词向量与文本分类

1.简介FastText, 一种技术, 也是 An NLP library by Facebook.2.原理3.FastText libraryGitHub: fastText 它由两部分组成: word representation learning 与 text classification.3.1 word representation learning命令$ ./fasttext skip

2017-09-01 11:38:19 9032

JEB(android apk 逆向)

JEB,apk逆向神器。整合jython与swt library,可直接运行于win64环境。

2016-02-02

JEB.android_apk_decompiler.zip

JEB,apk逆向工具神器。整合swt-library与jython。直接可以运行。

2016-02-02

apktool_2.0.0rc4.suit.zip

用于将apk逆向为目录,内含字节码文件。 version:2.0.0rc4 使用方法:内含readMe。

2016-02-02

win7防音量过大自干预程序_ vs2010完整解决方案.zip

  Windows是一个多任务操作环境,在同一时刻允许多个应用程序共同输出自己的声音。在这多个程序中,一旦任一进程的音量失常就会严重影响用户的听觉体验。该项目通过Direct X编程在对声卡缓冲区进行音频数据捕获后进行语音信号短时域分析,然后通过Core Audio API进行音量上的实时干预,防止音量大幅突变从而破坏用户本已舒适的听觉体验。 2 项目实现 2.1录音部分 2.1.1枚举录音设备 2.1.2创建设备对象 2.1.3创建录音buffer 2.2波形分析 2.3声音干预

2013-09-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除