文本挖掘
文章平均质量分 83
hpu刘
这个作者很懒,什么都没留下…
展开
-
了解微软开源核心机器学习技术DMTK
转自:http://blog.csdn.net/cloudtechtime/article/details/50042167版权声明:本文为博主原创文章,转载请注明出处。还记得11月9日Google Research推出第二代开源机器学习软件库TensorFlow吧,谷歌称在建立和训练神经网络方面,TensorFlow速度要比第一转载 2016-01-19 11:05:50 · 1650 阅读 · 0 评论 -
多模式匹配AC算法
Aho-Corasick算法是多模式匹配中的经典算法,目前在实际应用中较多。Aho-Corasick算法对应的数据结构是Aho-Corasick自动机,简称AC自动机。搞编程的一般都应该知道自动机FA吧,具体细分为:确定性有限状态自动机(DFA)和非确定性有限状态自动机NFA。普通的自动机不能进行多模式匹配,AC自动机增加了失败转移,转移到已经输入成功的文本的后缀,来实现。原创 2016-05-24 11:19:40 · 1221 阅读 · 0 评论 -
WM算法原理与代码实现(模式匹配)
WM算法采用字符块技术,增大了主串和模式串不匹配的可能性.从而增加了直接跳跃的机会:它使用前缀表进一步过滤不匹配的模式串,使算法获得了较高的运行效率。因此.在现有的多关键字匹配算法中,使用块字符、Hash技术和前缀特征表技术的WM算法通常被认为具有最高的效率。 Wu-Manber 算法采用了跳跃不可能匹配的字符策略和hash 散列的方法,加速匹配的进行.该方法需要对所有模式进行预处理,构建转载 2016-05-24 11:14:43 · 4405 阅读 · 1 评论 -
word2vec代码注释
// Copyright 2013 Google Inc. All Rights Reserved.//// Licensed under the Apache License, Version 2.0 (the "License");// you may not use this file except in compliance with the License.//转载 2016-03-22 14:22:29 · 848 阅读 · 0 评论 -
Windows下MPI的环境搭建及机群测试
准备软件:官网上下载对应的版本http://www.mcs.anl.gov/research/projects/mpich2/index.php。这里采用的是win32版本。设备:电脑若干台,均为windows操作系统环境配置过程如下:1.安装软件2.添加新的管理员账户3.注册账户4.配置下面依次说明。一.安装软件转载 2016-03-07 15:39:40 · 1721 阅读 · 1 评论 -
ZeroMQ,史上最快的消息队列 —– ZMQ的学习和研究
一、ZeroMQ 的背景介绍 引用官方的说法: “ZMQ (以下 ZeroMQ 简称 ZMQ)是一个简单好用的传输层,像框架一样的一个 socket library,他使得 Socket 编程更加简单、简洁和性能更高。是一个消息处理队列库,可在多个线程、内核和主机盒之间弹性伸缩。ZMQ 的明确目标是“成为标准网络协议栈的一部分,之后进入 Linux 内核”。现在还未看到它们的成功。但是,转载 2016-03-07 10:11:50 · 3190 阅读 · 0 评论 -
Web文本挖掘技术研究
转载出处:http://blog.sina.com.cn/s/blog_4ad7c25401000bpc.html王继成 潘金贵 张福炎摘 要 作为从浩瀚的Web信息资源中发现潜在的、有价值知识的一种有效技术,Web挖掘正悄然兴起,倍受关注.目前,Web挖掘的研究正处于发展阶段,尚无统一的结论,需要国内外学者在理论上开展更多的讨论.同时,Web挖掘系统的开发转载 2016-01-15 11:12:42 · 4014 阅读 · 0 评论 -
主题模型
摘要: 两篇文档是否相关往往不只决定于字面上的词语重复,还取决于文字背后的语义关联。对语义关联的挖掘,可以让我们的搜索更加智能化。本文着重介绍了一个语义挖掘的利器:主题模型。主题模型是对文字隐含主题进行建模的方法。它克服了传统信息检索中文档相似度计算方法的缺点,并且能够在海量互联网数据中自动寻找出文字间的语义主题。近些年来各大互联网公司都开始了这方面的探索和尝试。就让我们看一下究竟吧。转载 2016-03-02 13:32:51 · 1297 阅读 · 0 评论 -
主题模型-LDA浅析
上个月参加了在北京举办SIGKDD国际会议,在个性化推荐、社交网络、广告预测等各个领域的workshop上都提到LDA模型,感觉这个模型的应用挺广泛的,会后抽时间了解了一下LDA,做一下总结:(一)LDA作用 传统判断两个文档相似性的方法是通过查看两个文档共同出现的单词的多少,如TF-IDF等,这种方法没有考虑到文字背后的语义关联,可能在两个文档共同出现的单词很少转载 2016-03-02 11:27:20 · 329 阅读 · 0 评论 -
fwrite和fread函数的用法小结
fwrite和fread是以记录为单位的I/O函数,fread和fwrite函数一般用于二进制文件的输入输出。[cpp] view plain copy print?#include size_t fread(void *ptr, size_t size, size_t nmemb, FILE *stream); size_t转载 2016-01-26 11:25:31 · 660 阅读 · 0 评论 -
多模式匹配AC算法(更正)
在上一篇关于多模式匹配AC的算法中,有一点失误的地方,在这里更正一下。上篇中的运行结果如下:不仔细看完全没有问题,可是如果细心的你仔细看下对字符串“hao”的匹配的下标时就会发现问题了...下图为更正代码后的结果:经过两个图片的对比,应该很明显了吧。废话不多说,以下是需要更改的函数的代码:int searchAC(Tree root,char *st原创 2016-05-25 15:07:25 · 605 阅读 · 0 评论