- 博客(392)
- 资源 (33)
- 收藏
- 关注
转载 NLP︱中文分词技术小结、几大分词引擎的介绍与比较
NLP︱中文分词技术小结、几大分词引擎的介绍与比较笔者想说:觉得英文与中文分词有很大的区别,毕竟中文的表达方式跟英语有很大区别,而且语言组合形式丰富,如果把国外的内容强行搬过来用,不一样是最好的。所以这边看到有几家大牛都在中文分词以及NLP上越走越远。哈工大以及北大的张华平教授(NLPIR)的研究成果非常棒!但是商业应用的过程中存在的以下的问题:1、是否
2017-05-25 16:07:21 2109
转载 CRF++ 运行与安装
选择example里的某个例子做测试,比如选chunking。将crf_learn.exe;crf_test.exe;libcrfpp.dll三个文件复制到到,含有exec.sh;template;test.data;train.data的文件夹(chunking)里。cmdcd进入该文件夹c:\>F: (直接写硬盘名字即可进入该盘)F:\>cd CRF++0.5
2017-05-24 18:53:15 763
转载 国内外自然语言处理(NLP)研究组
*博客地址 http://blog.csdn.net/wangxinginnlp/article/details/44890553*排名不分先后。收集不全,欢迎留言完善。中国大陆地区:微软亚洲研究院自然语言计算组 Natural Language Computing (NLC) Group https://www.microsoft.co
2017-05-24 13:48:40 3301
转载 TF实现物体识别、行人检测和图像
贴一个TensorFlow 2017开发者大会的Mobile专题演讲移动和嵌入式TensorFlow这里面有重点讲到本文介绍的三个例子,以及其他的移动和嵌入式方面的TF相关问题,干货很多2017/01/17 更新今天上 Github,发现 Tensorflow 的 Android demo又更新了,除了基本的修改以外,又增加了一个图像风格迁移的安卓demo,而且
2017-05-23 15:46:19 1672
转载 Ubuntu 使用 Android Studio 编译 TensorFlow android demo
时间成功将 TensorFlow 的 Android demo(TensorFlow android demo 教程)复现了,将 tensorflow 的深度学习模型移植到了Android 手机。最近想进行二次开发,移植我自己训练的模型到手机上。之前在复现 demo 的过程中,没有使用过专门的安卓开发IDE,一般是用 Eclipse 看源代码,然后直接在 Terminal 中使用 Ba
2017-05-23 15:44:00 789
转载 tf 模型应用
先说两句题外话吧,TensorFlow 前两天热热闹闹的发布了正式版r1.0,可感觉自己才刚刚上手 r0.12,这个时代发展的太快,脚步是一刻也不能停啊~但是不得不吐槽 TensorFlow的向下兼容做的实在不太友好,每次更新完版本,以前的代码就跑不动,各种提示您使用的函数已经不存在。。。代码积攒的越来越多,全部针对新版本翻改一遍,工程真是浩大。但是喜新厌旧,手贱如我,每次都忍不住
2017-05-23 15:42:43 741
转载 数据挖掘
常用的数据挖掘&机器学习知识(点)Basis(基础):MSE(MeanSquare Error 均方误差),LMS(Least MeanSquare 最小均方),LSM(Least Square Methods 最小二乘法),MLE(Maximum LikelihoodEstimation最大似然估计),QP(QuadraticProgramming 二次规划), CP(Condi
2017-05-17 10:27:11 557
转载 Windows下使用Word2vec继续词向量训练
word2vec是Google在2013年提出的一款开源工具,其是一个Deep Learning(深度学习)模型(实际上该模型层次较浅,严格上还不能算是深层模型,如果word2vec上层再套一层与具体应用相关的输出层,如Softmax,便更像是一个深层模型),它将词表征成实数值向量,采用CBOW(Continuous Bag-Of-Words Model,连续词袋模型)和Skip-Gram(C
2017-05-17 10:24:51 677
转载 文档生成字典
在自然语言处理任务中,经常会对文本进行预处理。这种操作中 有一部分十分重要,即建立词典。下面将给出一段讲解的Python代码。# 生成词汇表文件def gen_vocabulary_file(input_file, output_file): vocabulary = {} with open(input_file) as f: counter = 0
2017-05-17 09:12:32 681
转载 评论进行分类
neg.txt:5331条负面电影评论(http://blog.topspeedsnail.com/wp-content/uploads/2016/11/neg.txt)pos.txt:5331条正面电影评论 (http://blog.topspeedsnail.com/wp-content/uploads/2016/11/pos.txt) 由于处理的
2017-05-17 09:10:04 1041
转载 机器人
用的模型为RNN(seq2seq),和前文的《RNN生成古诗词》《RNN生成音乐》类似。 本次博客使用的数据集:影视对白数据集; 下载数据集后,解压提取dgk_shooter_min.conv文件; 1)数据预处理:[python] view plain copy #coding=utf
2017-05-17 09:08:57 871
转载 中文分词组件
1.下载mecab-chinesedic-binary,放在MeCab bin目录下,具体参考:详细详细可参考《用MeCab打造一套实用的中文分词系统》cmd运行命令:mecab -d mecab-chinesedic-binary wakati wiki.zh.text.jian -o wiki.zh.text.jian.seg -b 10000000 其中,wiki.zh.te
2017-05-17 09:07:13 638
转载 docker
基于docker与使用示例目录(?)[+]0. 引言Docker 是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的 Linux 机器上。因此,Docker给应用提供了一个从开发到上线均一致的代码环境,让代码的流水线变得简单不少。以下是基于docker的caffe环境搭建过
2017-05-15 14:37:22 390
转载 MOT
单目标跟踪算法的评价指标不用我多说,因为其跟踪情况较为简单,已经有较为明确的判断指标,但是一直以来,多目标跟踪的评价指标都未统一,跟踪算法的论文中也是用各种评价指标来分析自身的算法,但是缺少与其它算法的横向比较,孰优孰劣不得而知。因为自己的毕业课题设计到这块,需要找到一种相对来说大家用的较多的,公认度较大的一种指标来对自己设计的算法和当前已有算法进行比较,由此而来本文。指标一:CLEAR
2017-05-12 11:50:30 2673
转载 GOTURN 算法
文章的题目叫:《Learning to Track at 100 FPS with Deep Regression Networks》 算法简称:GOTURN(Generic Object Tracking Using Regression Networks) 作者是斯坦福的David Held 文章以及附件:http://davheld.github.io/GOTURN/GOTURN
2017-05-12 11:26:17 4283 3
转载 常用处理(NLP)
自然语言处理(NLP)常用开源工具总结(转) 1.IKAnalyzer IK Analyzer是一个开源的,基于Java语言开发的轻量级的中文分词工具包。从2006.12推出1.0版本开始,IK Analyzer已经推出了多个版本,当前最新版本为2012 u6,最初基于Luence,从3.0开始成为面向Java的公用分词组件,独立于Luence,下载地址
2017-05-11 13:23:11 564
转载 spark分布式安装 spark集群搭建 hadoop集群搭建
搭建1个master,2个slave的集群方案。软件操作系统:ubuntu16.04 #同样适用centos系统hadoop:hadoop-2.7.2.tar.gzscala:scala-2.11.8.tgzspark: spark-1.6.1-bin-hadoop2.6.tgzjava:jdk-8u91-linux-x64.tar.gz1234512345创建hado
2017-05-04 15:22:35 480
转载 文本进行分类
文本进行分类测试facebook开源的基于深度学习的对文本分类的fastText模型 fasttext Python包的安装:pip install fasttext11第一步获取分类文本,文本直接用的清华大学的新闻分本,可在文本系列的第三篇找到下载地址。 数据格式: 样本 + 样本标签import jiebabasedir = "/home/li/
2017-05-04 14:56:29 511
转载 语音识别系统
最近一直在折腾kaldi,在这个庞大的系统面前,自己是那么的微小。由于数据库的原因,我只能运行kaldi所给例子的一部分。下面就来说说最近的进展吧。 第一个例子就是yesno这个例子。由于提供数据,而且数据比较小,可以非常容易的去实现这个例子。具体的可以见我之前的博客:语音识别工具箱之kaldi介绍。 第二个例子是rm里面的s4。具体的步骤也很简单,首先运行./ge
2017-05-03 18:11:23 537
转载 supervessel-免费云镜像
开发环境介绍在SuperVessel云上,我们为大家免费提供当前火热的caffe深度学习开发环境。SuperVessel的Caffe有如下优点:1) 免去了繁琐的Caffe环境的安装配置,即申请即使用。2) 集成了SuperVessel先进的GPU虚拟化技术,POWER8,GPU与cuDNN库三重加速的Caffe,极大的节约您的模型训练时间。3) 环境集成了一些优秀的C
2017-05-03 14:33:25 747
转载 高级词向量表达
FastText是Facebook开发的一款快速文本分类器,提供简单而高效的文本分类和表征学习的方法,不过这个项目其实是有两部分组成的,一部分是这篇文章介绍的 fastText 文本分类(paper:A. Joulin, E. Grave, P. Bojanowski, T. Mikolov, Bag of Tricks for Efficient Text Classificatio
2017-05-03 14:27:15 1726
转载 回归树
GBDT由一系列的回归树组成,如下图所示(树的深度未必都要一样,下图仅为示意图)。GBDT原理针对每一个类别训练一系列的回归树,再累加每个类别回归树的预测值得到针对每个类别的最终的预测值。单独拿一个类别来说,训练的过程中假设需要预测的值为f(xi),实际的值为yi,有Loss Function L(yi,f(xi)),f(xi)为参数。训练的过程就是让Loss Fu
2017-05-03 14:07:28 787
转载 文本分类
FastText 文本分类使用心得最近在一个项目里使用了fasttext[1], 这是facebook今年开源的一个词向量与文本分类工具,在学术上没有什么创新点,但是好处就是模型简单,训练速度又非常快。我在最近的一个项目里尝试了一下,发现用起来真的很顺手,做出来的结果也可以达到上线使用的标准。其实fasttext使用的模型与word2vec的CBOW模型在结构上是一样的
2017-05-03 14:05:11 1049
转载 训练一个词向量空间
word2vec (四) 动手训练一个词向量空间开源的word2vec工具已经有不少了,可以直接使用google开源的C版本,也可以用gensim版本的。这里我就用gensim的word2vec来训练一个词向量空间。训练语料输入gensim word2vec的API接受一系列的句子作为输入语料,其中每一个句子是一系列词构成的list。如下所示import gen
2017-05-03 14:03:54 1175
转载 训练过程概要
word2vec (一) 简介与训练过程概要因为在组里分享会要讲word2vec,重新整理了之前凌乱的笔记,结果发现有不少新的收获,真是所谓的温故而知新!词的向量化与word2vec简介word2vec最初是Tomas Mikolov发表的一篇文章[1],同时开源了相应的代码,作用是将所有词语投影到K维的向量空间,每个词语都可以用一个K维向量表示。为什么
2017-05-03 14:02:41 642
转载 语义分析
plsa(Probabilistic Latent Semantic Analysis) 概率隐语义分析Probabilistic Latent Semantic Analysis主题模型简介plsa,也就是概率隐语义分析,是主题模型的一种。主题模型是什么呢?先从文档说起,每篇文档用bag-of-words模型表示,也就是每篇文档只与所包含的词有关,而不考虑这些词的
2017-05-03 14:01:16 1353
转载 Opencv3.2+VS2015环境配置(VS2015以下版本需要自己编译dll)
2016年12月23日,发布OpenCV 3.2版(合并969个修补程序,关闭478个问题)//刚刚想搜Opencv各个功能模块的时候突然发现,一个月之前发布了3.2版本,吓得我立马去下载下来尝试了下载地址:DOWNLOADS2016-12-23OpenCV for WindowsO
2017-04-27 15:58:55 1047
转载 Opencv3.2各个模块功能详细简介(包括与Opencv2.4的区别)
感谢之前一个博友的留言说工程实际中OpenCV各个模块封装成一个world的dll会太过冗余,所以今天来把几个主要的功能模块的主要功能整理下,方便之后的拆分调用。如果对于某些模块有疑问,欢迎留言交流,之后或可以重点再去补充文章中某些部分的内容。Opencv官方首页给的Reference说明文档是2.4.13.2版本的…………官网说明链接3.2版本的模块说明:Opencv3.
2017-04-27 15:53:29 1308
转载 生成对抗网络
2014Generative Adversarial Nets(精读2017.3.2)Goodfellow, Bengio et al. NIPS2014 蒙特利尔大学摘要一种新的生成式框架,同时训练两个模型,一个称为“产出模型” G,另一个称为“检验模型” D G用于描述数据的分布(或者说是生成尽可能拟合真实数据的分布),D用于对G各个迭代轮次产生的结果进行评
2017-04-27 09:16:07 1113
转载 雅虎开源TensorflowOnSpark,Ubuntu配置安装TensorflowOnSpark
一、引言 Yahoo在2016年2月左右开源了基于Spark/Hadoop的分布式深度学习框架—CaffeOnSpark,CaffeOnSpark被设计成为一个Spark深度学习包,Spark MLlib支持各种非深度学习算法用于分类、回归、聚类、推荐等,但目前缺乏深度学习这一关键能力,而CaffeOnSpark旨在填补这一空白。CaffeOnSpark API支持dataframes,以
2017-03-07 18:25:57 460
转载 TensorFlow 制作自己的TFRecord数据集
官网的mnist和cifar10数据之后,笔者尝试着制作自己的数据集,并保存,读入,显示。 TensorFlow可以支持cifar10的数据格式, 也提供了标准的TFRecord 格式,而关于 tensorflow 读取数据, 官网提供了3中方法 1 Feeding: 在tensorflow程序运行的每一步, 用Python代码在线提供数据 2 Reader : 在一个计算图(tf.gra
2017-03-06 16:30:47 4506 6
转载 Tensorflow之构建自己的图片数据集TFrecords
学习谷歌的深度学习终于有点眉目了,给大家分享我的Tensorflow学习历程。 tensorflow的官方中文文档比较生涩,数据集一直采用的MNIST二进制数据集。并没有过多讲述怎么构建自己的图片数据集tfrecords。 先贴我的转化代码将图片文件夹下的图片转存tfrecords的数据集。[python] view plain copy
2017-03-06 14:58:59 1613 2
转载 深度学习 vs SLAM
SLAM 小组讨论真是乐趣无穷。在我们进入重要的「深度学习 vs SLAM」讨论之前,我应该说明每一位研讨会展示者都同意:语义对构建更大更好的 SLAM 系统是必需的。关于未来的方向,这里有很多有趣的小对话。在争论中,Marc Pollefeys(一位知名的 SfM 和多视角几何研究者)提醒所有人「机器人是 SLAM 的一个杀手级应用」,并建议我们保持对「大奖」的关注。这令人非常惊讶,因为 SLA
2017-03-02 10:27:52 2270
转载 FCN
传统的做图像分割的方式大概是这样的:以某个像素点中心取一个区域,取图像块的特征做样本训练分类器,分类结果作为此像素点的结果这样做缺点很明显,比如:如何确定图像块的大小从小的图像块(patch)中获得的上下文信息(contex)较少,且极端耗时FCN的做法是训练一个end-to-end的网络,做pixel-wis
2017-03-01 16:38:12 3932 1
转载 Tensorflow学习笔记(8)——input_data.py解析
这里学习一下前面用到的读取mnist数据库文件的代码。其实并没有用到Tensorlfow的东西,但是读取数据库文件是使用Tensorflow编程实现功能的基础,因此归到Tensorflow的学习笔记中。 这里需要注意的主要有以下几点: 1.dense_to_one_hot函数 2.DataSet类中next_batch函数 3.read_data_sets函数 这里有一个问题:
2017-02-22 14:37:43 2577
转载 TensorFlow在图像识别中的应用
大脑的成像过程似乎很容易。人们毫不费力地就能区分出狮子和美洲虎,阅读符号,或是识别面孔。但是这些任务对于计算机而言却是一个大难题:它们之所以看上去简单,是因为我们的大脑有着超乎想象的能力来理解图像。在过去几年里,机器学习在解决这些难题方面取得了巨大的进步。其中,我们发现一种称为深度卷积神经网络的模型在困难的视觉识别任务中取得了理想的效果 —— 达到人类水平,在某些领域甚至超过。研究
2017-02-22 14:09:21 1321
转载 从RCNN到SSD发生了什么
这里的Object Detection包含了识别或分类,主要评价指标都是VOC数据集mAP刷分。通常默认的顺序是RCNN->SPP->Fast RCNN->Faster RCNN->YOLO->SSD,这里只粗糙地介绍网络构型变化。算法逐步改进,速度也在快速提高,But!这些测试基本上都是在TITAN X上运行的,自己使用的时候需要仔细评估计算量,特别是小型的移动机器人。1. RCNN
2017-02-22 13:52:32 4385
转载 TensorFlow学习笔记----TensorBoard_2
,使用全连接识别MNIST,需要命名空间更多,程序更灵活,但基本的函数换是那些。from __future__ import absolute_importfrom __future__ import divisionfrom __future__ import print_functionimport tensorflow as tffrom tensorflow.examples.
2017-02-22 11:32:30 956
转载 TensorFlow学习笔记----TensorBoard_1
一个曲线拟合的小例子说明要使用TensorBoard,需要对程序添加那些额外的东西。程序:
2017-02-22 11:29:30 1008
转载 TensorFlow学习笔记(5)----TF生成数据的方法
TensorFlow学习笔记(5)----TF生成数据的方法正常情况下,使用tf.initialize_all_variables()初始化变量,在完全构建好模型并加载之后才运行这个操作。生成数据的主要方法如下1)如果需要利用已经初始化的参数给其他变量赋值TF的变量有个initialized_value()属性,就是初始化的值,使用方法如下:
2017-02-22 09:23:53 1152
setup_jlink_v510b
2015-12-05
模板匹配在图像识别
2015-03-14
利用System Generator和 Core Generator设计高效的DUCDDC.part1.rar
2014-02-27
利用System Generator和 Core Generator设计高效的DUCDDC.part2.rar )
2014-02-27
百兆以太网MAC和MII的VHDL源码,我也是从别的地方下载的,给大家做个参考
2013-10-31
Aria2-不限速全平台下载利器
2018-06-11
rgbdslam_v2-indigo
2016-03-02
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人