自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

SIGMA实验室

北京大学SIGMA实验室

  • 博客(16)
  • 收藏
  • 关注

原创 NB-MAFIA: 基于N-List 的最长频繁项集挖掘算法

基于N-List, 提出一个高效的最长频繁项集挖掘算法NB-MAFIA,发表在《北京大学学报》上,论文可从以下网址免费下载:http://xbna.pku.edu.cn/CN/abstract/abstract2916.shtml

2016-06-18 23:32:07 914

原创 基于节点列表的项集表示框架的频繁项集挖掘最新进展

最新的论文在Expert Systems with Applications 2015 42卷13期上发表。这篇论文采用等价类提升的策略,极大地提升了挖掘的速度,并且节省了内存消耗。所形成的PrePost+算法在时间和空间的性能度要明显优于PrePost和FIN算法。PrePost+算法的下载地址为:http://www.cis.pku.edu.cn/faculty/system/deng

2015-04-20 20:58:04 1008

原创 PrePost和FIN算法的JAVA版本

​频繁模式挖掘开源库SPMF上已经提供了PrePost和FIN算法的JAVA版本。具体见SPMF的网址:http://www.philippe-fournier-viger.com/spmf/

2014-11-24 20:44:50 986

原创 高效频繁模式挖掘算法PrePost和FIN的C++源码

这两个算法均给予我们小组提出了基于模式树节点集的新颖数据结构,它们的效率要优于传统主流挖掘算法,可以在其基础上重写所有与频繁项集挖掘相关的任务,如闭模式、最长模式和TOP-K模式等等。

2014-11-21 15:33:46 2343

原创 基于节点列表的项集表示框架的频繁模式(项集)挖掘研究进展

我们小组提出了基于模式树节点集的新颖数据结构,并把这类结构应用到数据挖掘核心任务-频繁模式挖掘中,形成了一系列的算法。这种结构从底层改变了频繁项集的挖掘方式和效率,有效地提升了挖掘速度,可以重写所有与频繁项集挖掘相关的任务,如闭模式、最长模式和TOP-K模式等。

2014-03-06 10:15:50 1793 3

转载 stanford coreNLP开源项目的3种编译和运行方式

coreNLP是stanford自然语言处理包的集成版,配置好要使用哪些功能直接调用就行了。以下直接给出我看到的一篇博文的链接,感觉说得应该很清楚,但是我还不会用JAVA,所以还得继续钻研……Stanford CoreNLP开源项目的3种编译和运行方式(一)http://hi.baidu.com/royripple/item/54282b03f1912bd01ef046df

2013-10-29 08:59:47 1930

原创 lingpipe使用方法简介

以下信息均来自于lingpipe的说明页面:    http://alias-i.com/lingpipe/demos/tutorial/read-me.html    lingpipe的功能中对我们有帮助的有:分类,聚类;实体识别,中文分词,情感分析;矩阵分解,条件随机场,EM算法,逻辑回归。lingpipe有一个免费的软件包,版本为4.1.0。在下载之后会得到一个文件夹,在

2013-10-26 17:01:59 7837 1

原创 DUC2006某一Topic内容分析

最近在做multi-document摘要,做实验之前先看看数据是怎样的。随便选了一个D0602B,主题是“女运动的类固醇使用”,应该是关于禁用药品的。由于很好奇到底是怎么做多文本总结的,现在我列出里面每篇文章大概是讲啥的APW19980812.0878:APW19980818.0980APW19990820.0030APW20000718.0065NYT19980812.015

2013-10-13 22:13:21 1174 3

原创 AAAI-2013概述(2)

AAAI2013下半部分文章中,重要的有如下四篇(分属四类,所以未做分类)1. Story Generation with Crowdsourced Plot Graphs目的:提出Story Generation Problem的新解决方法。以前的方法都要基于一个事先定义好的domain model,而这里提出的方法是从语料库中学习到domain model。方法:1)

2013-08-29 19:23:11 1483 1

原创 ACL 2013 Tutorials & Papers

ACL 2013 Tutorials & Papers1. Tutorial 1 - Visual Features for Linguists: Basic image analysis techniques formultimodally-curious NLPersAuthors: EliaBruni and Marco Baroni个人主页:http://clic.cime

2013-08-28 14:49:02 1895 3

原创 IJCAI13 Web and Knowledge-based Information Systems概述(1)

Web and Knowledge-basedInformation Systems方向共有26篇文章,我看了其中13篇,有6篇和recommendation有关。 有3篇文章可能比较重要,下面详细介绍:Recommendation(2)1.       Promoting Diversity inRecommendation by Entropy Regularizer问题:

2013-08-27 23:52:04 1329 1

原创 AAAI-2013概述(1)

AAAI的分类如下:Main Technical Track:150篇       AI and the Web Track:18篇Cognitive Systems Track:7篇Computational Sustainability and AI Track:16篇Robotics Track:11篇分类其实不太有用,因为150篇里什么方向的都有…… 我看了

2013-08-27 20:17:47 1998 2

原创 KDD-2013概述

精力有限,希望同学们补充“摘要”,以及划重点(加粗)Document and topic modelsOne Theme in All Views: Modeling Consensus Topics in Multiple ContextsRepresenting Documents Through Their Readers以往文章研究的是给定文章model用户,这

2013-08-26 22:23:54 3145 1

原创 KDD-2013 Tutorial

Algorithmic techniques for modeling and mining large graphs (AMAzING)large graph mining涉及:random graphgraph sparsifier(图稀疏化 这篇文章有个简介)graph partitionfinding dense subgraphMining Data from

2013-08-26 16:51:19 2332

原创 SIGIR-2013概述

本次SIGIR-2013总共收录了73篇长文.以下是各个领域的文章数量统计:User Behavior: 4篇Social Media and Network Analysis: 8篇Queries: 8篇Users and Interactive IR: 8篇Efficiency: 7篇Topic Modeling: 4篇Recommender Systems:

2013-08-25 15:16:33 2483 4

原创 IJCI-2013自然语言过程部分文章推荐

Integrating Syntactic and Semantic Analysis into the OpenInformation Extraction Paradigm目标: Open Information Extraction (OIE) paradigm,即从大型语料库中提取关系.关键点:之前的文章往往仅仅提取语料库上下文的文本信息,来进行关系的判别.本文提出将句法,语法分析

2013-08-25 15:14:52 1570 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除