- 博客(29)
- 资源 (33)
- 收藏
- 关注
翻译 使用Stanford Word Segmenter and Stanford Named Entity Recognizer (NER)实现中文命名实体识
一、分词介绍http://nlp.stanford.edu/software/segmenter.shtml斯坦福大学的分词器,该系统需要JDK 1.8+,从上面链接中下载stanford-segmenter-2014-10-26,解压之后,如下图所示,进入data目录,其中有两个gz压缩文件,分别是ctb.gz和pku.gz,其中CTB:宾州大学的中国树库训练资料 ,PKU:中国北京
2017-05-31 11:26:24 832
转载 词典加载及简要分词过程
ansj词典加载及简要分词过程 粗略看了点ansj源代码,记录备忘。 词典等配置文件加载类 (以调用 NlpAnalysis 分词类为例): 1, MyStaticValue 初始化 NlpAnalysis 中 static 的静态变量 spliansj词典加载及简要分词过程粗略看了点ansj源代码,记录备忘。 词典等配置文件加载类(以调用N
2017-05-26 14:34:10 1399
转载 定制模型
定制你自己的CRF模型CompileYouth edited this page on Jan 4 · 3 revisionsPages 20Home书名识别停用词过滤关键词抽取分词方式创建Restful分词接口定制你自己的CRF模型插件及第三方支持新词发现小工具易误用方法提醒歧义纠正辞典用户自定义词典用户自定义词典的动态添加删除Demo用户自定义词
2017-05-26 11:17:31 882
转载 NLP︱中文分词技术小结、几大分词引擎的介绍与比较
NLP︱中文分词技术小结、几大分词引擎的介绍与比较笔者想说:觉得英文与中文分词有很大的区别,毕竟中文的表达方式跟英语有很大区别,而且语言组合形式丰富,如果把国外的内容强行搬过来用,不一样是最好的。所以这边看到有几家大牛都在中文分词以及NLP上越走越远。哈工大以及北大的张华平教授(NLPIR)的研究成果非常棒!但是商业应用的过程中存在的以下的问题:1、是否
2017-05-25 16:07:21 2109
转载 CRF++ 运行与安装
选择example里的某个例子做测试,比如选chunking。将crf_learn.exe;crf_test.exe;libcrfpp.dll三个文件复制到到,含有exec.sh;template;test.data;train.data的文件夹(chunking)里。cmdcd进入该文件夹c:\>F: (直接写硬盘名字即可进入该盘)F:\>cd CRF++0.5
2017-05-24 18:53:15 763
转载 国内外自然语言处理(NLP)研究组
*博客地址 http://blog.csdn.net/wangxinginnlp/article/details/44890553*排名不分先后。收集不全,欢迎留言完善。中国大陆地区:微软亚洲研究院自然语言计算组 Natural Language Computing (NLC) Group https://www.microsoft.co
2017-05-24 13:48:40 3301
转载 TF实现物体识别、行人检测和图像
贴一个TensorFlow 2017开发者大会的Mobile专题演讲移动和嵌入式TensorFlow这里面有重点讲到本文介绍的三个例子,以及其他的移动和嵌入式方面的TF相关问题,干货很多2017/01/17 更新今天上 Github,发现 Tensorflow 的 Android demo又更新了,除了基本的修改以外,又增加了一个图像风格迁移的安卓demo,而且
2017-05-23 15:46:19 1672
转载 Ubuntu 使用 Android Studio 编译 TensorFlow android demo
时间成功将 TensorFlow 的 Android demo(TensorFlow android demo 教程)复现了,将 tensorflow 的深度学习模型移植到了Android 手机。最近想进行二次开发,移植我自己训练的模型到手机上。之前在复现 demo 的过程中,没有使用过专门的安卓开发IDE,一般是用 Eclipse 看源代码,然后直接在 Terminal 中使用 Ba
2017-05-23 15:44:00 789
转载 tf 模型应用
先说两句题外话吧,TensorFlow 前两天热热闹闹的发布了正式版r1.0,可感觉自己才刚刚上手 r0.12,这个时代发展的太快,脚步是一刻也不能停啊~但是不得不吐槽 TensorFlow的向下兼容做的实在不太友好,每次更新完版本,以前的代码就跑不动,各种提示您使用的函数已经不存在。。。代码积攒的越来越多,全部针对新版本翻改一遍,工程真是浩大。但是喜新厌旧,手贱如我,每次都忍不住
2017-05-23 15:42:43 741
转载 数据挖掘
常用的数据挖掘&机器学习知识(点)Basis(基础):MSE(MeanSquare Error 均方误差),LMS(Least MeanSquare 最小均方),LSM(Least Square Methods 最小二乘法),MLE(Maximum LikelihoodEstimation最大似然估计),QP(QuadraticProgramming 二次规划), CP(Condi
2017-05-17 10:27:11 557
转载 Windows下使用Word2vec继续词向量训练
word2vec是Google在2013年提出的一款开源工具,其是一个Deep Learning(深度学习)模型(实际上该模型层次较浅,严格上还不能算是深层模型,如果word2vec上层再套一层与具体应用相关的输出层,如Softmax,便更像是一个深层模型),它将词表征成实数值向量,采用CBOW(Continuous Bag-Of-Words Model,连续词袋模型)和Skip-Gram(C
2017-05-17 10:24:51 677
转载 文档生成字典
在自然语言处理任务中,经常会对文本进行预处理。这种操作中 有一部分十分重要,即建立词典。下面将给出一段讲解的Python代码。# 生成词汇表文件def gen_vocabulary_file(input_file, output_file): vocabulary = {} with open(input_file) as f: counter = 0
2017-05-17 09:12:32 681
转载 评论进行分类
neg.txt:5331条负面电影评论(http://blog.topspeedsnail.com/wp-content/uploads/2016/11/neg.txt)pos.txt:5331条正面电影评论 (http://blog.topspeedsnail.com/wp-content/uploads/2016/11/pos.txt) 由于处理的
2017-05-17 09:10:04 1041
转载 机器人
用的模型为RNN(seq2seq),和前文的《RNN生成古诗词》《RNN生成音乐》类似。 本次博客使用的数据集:影视对白数据集; 下载数据集后,解压提取dgk_shooter_min.conv文件; 1)数据预处理:[python] view plain copy #coding=utf
2017-05-17 09:08:57 871
转载 中文分词组件
1.下载mecab-chinesedic-binary,放在MeCab bin目录下,具体参考:详细详细可参考《用MeCab打造一套实用的中文分词系统》cmd运行命令:mecab -d mecab-chinesedic-binary wakati wiki.zh.text.jian -o wiki.zh.text.jian.seg -b 10000000 其中,wiki.zh.te
2017-05-17 09:07:13 638
转载 docker
基于docker与使用示例目录(?)[+]0. 引言Docker 是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的 Linux 机器上。因此,Docker给应用提供了一个从开发到上线均一致的代码环境,让代码的流水线变得简单不少。以下是基于docker的caffe环境搭建过
2017-05-15 14:37:22 390
转载 MOT
单目标跟踪算法的评价指标不用我多说,因为其跟踪情况较为简单,已经有较为明确的判断指标,但是一直以来,多目标跟踪的评价指标都未统一,跟踪算法的论文中也是用各种评价指标来分析自身的算法,但是缺少与其它算法的横向比较,孰优孰劣不得而知。因为自己的毕业课题设计到这块,需要找到一种相对来说大家用的较多的,公认度较大的一种指标来对自己设计的算法和当前已有算法进行比较,由此而来本文。指标一:CLEAR
2017-05-12 11:50:30 2673
转载 GOTURN 算法
文章的题目叫:《Learning to Track at 100 FPS with Deep Regression Networks》 算法简称:GOTURN(Generic Object Tracking Using Regression Networks) 作者是斯坦福的David Held 文章以及附件:http://davheld.github.io/GOTURN/GOTURN
2017-05-12 11:26:17 4283 3
转载 常用处理(NLP)
自然语言处理(NLP)常用开源工具总结(转) 1.IKAnalyzer IK Analyzer是一个开源的,基于Java语言开发的轻量级的中文分词工具包。从2006.12推出1.0版本开始,IK Analyzer已经推出了多个版本,当前最新版本为2012 u6,最初基于Luence,从3.0开始成为面向Java的公用分词组件,独立于Luence,下载地址
2017-05-11 13:23:11 564
转载 spark分布式安装 spark集群搭建 hadoop集群搭建
搭建1个master,2个slave的集群方案。软件操作系统:ubuntu16.04 #同样适用centos系统hadoop:hadoop-2.7.2.tar.gzscala:scala-2.11.8.tgzspark: spark-1.6.1-bin-hadoop2.6.tgzjava:jdk-8u91-linux-x64.tar.gz1234512345创建hado
2017-05-04 15:22:35 480
转载 文本进行分类
文本进行分类测试facebook开源的基于深度学习的对文本分类的fastText模型 fasttext Python包的安装:pip install fasttext11第一步获取分类文本,文本直接用的清华大学的新闻分本,可在文本系列的第三篇找到下载地址。 数据格式: 样本 + 样本标签import jiebabasedir = "/home/li/
2017-05-04 14:56:29 511
转载 语音识别系统
最近一直在折腾kaldi,在这个庞大的系统面前,自己是那么的微小。由于数据库的原因,我只能运行kaldi所给例子的一部分。下面就来说说最近的进展吧。 第一个例子就是yesno这个例子。由于提供数据,而且数据比较小,可以非常容易的去实现这个例子。具体的可以见我之前的博客:语音识别工具箱之kaldi介绍。 第二个例子是rm里面的s4。具体的步骤也很简单,首先运行./ge
2017-05-03 18:11:23 537
转载 supervessel-免费云镜像
开发环境介绍在SuperVessel云上,我们为大家免费提供当前火热的caffe深度学习开发环境。SuperVessel的Caffe有如下优点:1) 免去了繁琐的Caffe环境的安装配置,即申请即使用。2) 集成了SuperVessel先进的GPU虚拟化技术,POWER8,GPU与cuDNN库三重加速的Caffe,极大的节约您的模型训练时间。3) 环境集成了一些优秀的C
2017-05-03 14:33:25 747
转载 高级词向量表达
FastText是Facebook开发的一款快速文本分类器,提供简单而高效的文本分类和表征学习的方法,不过这个项目其实是有两部分组成的,一部分是这篇文章介绍的 fastText 文本分类(paper:A. Joulin, E. Grave, P. Bojanowski, T. Mikolov, Bag of Tricks for Efficient Text Classificatio
2017-05-03 14:27:15 1726
转载 回归树
GBDT由一系列的回归树组成,如下图所示(树的深度未必都要一样,下图仅为示意图)。GBDT原理针对每一个类别训练一系列的回归树,再累加每个类别回归树的预测值得到针对每个类别的最终的预测值。单独拿一个类别来说,训练的过程中假设需要预测的值为f(xi),实际的值为yi,有Loss Function L(yi,f(xi)),f(xi)为参数。训练的过程就是让Loss Fu
2017-05-03 14:07:28 787
转载 文本分类
FastText 文本分类使用心得最近在一个项目里使用了fasttext[1], 这是facebook今年开源的一个词向量与文本分类工具,在学术上没有什么创新点,但是好处就是模型简单,训练速度又非常快。我在最近的一个项目里尝试了一下,发现用起来真的很顺手,做出来的结果也可以达到上线使用的标准。其实fasttext使用的模型与word2vec的CBOW模型在结构上是一样的
2017-05-03 14:05:11 1049
转载 训练一个词向量空间
word2vec (四) 动手训练一个词向量空间开源的word2vec工具已经有不少了,可以直接使用google开源的C版本,也可以用gensim版本的。这里我就用gensim的word2vec来训练一个词向量空间。训练语料输入gensim word2vec的API接受一系列的句子作为输入语料,其中每一个句子是一系列词构成的list。如下所示import gen
2017-05-03 14:03:54 1175
转载 训练过程概要
word2vec (一) 简介与训练过程概要因为在组里分享会要讲word2vec,重新整理了之前凌乱的笔记,结果发现有不少新的收获,真是所谓的温故而知新!词的向量化与word2vec简介word2vec最初是Tomas Mikolov发表的一篇文章[1],同时开源了相应的代码,作用是将所有词语投影到K维的向量空间,每个词语都可以用一个K维向量表示。为什么
2017-05-03 14:02:41 642
转载 语义分析
plsa(Probabilistic Latent Semantic Analysis) 概率隐语义分析Probabilistic Latent Semantic Analysis主题模型简介plsa,也就是概率隐语义分析,是主题模型的一种。主题模型是什么呢?先从文档说起,每篇文档用bag-of-words模型表示,也就是每篇文档只与所包含的词有关,而不考虑这些词的
2017-05-03 14:01:16 1353
setup_jlink_v510b
2015-12-05
模板匹配在图像识别
2015-03-14
利用System Generator和 Core Generator设计高效的DUCDDC.part1.rar
2014-02-27
利用System Generator和 Core Generator设计高效的DUCDDC.part2.rar )
2014-02-27
百兆以太网MAC和MII的VHDL源码,我也是从别的地方下载的,给大家做个参考
2013-10-31
Aria2-不限速全平台下载利器
2018-06-11
rgbdslam_v2-indigo
2016-03-02
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人