看懂信息检索和网络数据挖掘领域论文的必备知识总结

信息检索和网络数据领域(WWW, SIGIR, CIKM, WSDM, ACL, EMNLP等)的论文中常用的模型和技术总结

引子:对于这个领域的博士生来说,看懂论文是入行了解大家在做什么的研究基础,通常我们会去看一本书。看一本书固然是好,但是有一个很大的缺点:一本书本身自成体系,所以包含太多东西,很多内容看了,但是实际上却用不到。这虽然不能说是一种浪费,但是却没有把有限力气花在刀口上。

我所处的领域是关于网络数据的处理(国际会议WWW, SIGIR, CIKM, WSDM, ACL, EMNLP,等)

我列了一个我自己认为的在我们这个领域常常遇到的模型或者技术的列表,希望对大家节省时间有所帮助:
1. 概率论初步
    主要常用到如下概念:初等概率定义的三个条件,全概率公式,贝叶斯公式,链式法则,常用概率分布(Dirichlet 分布,高斯分布,多项式分布,玻松分布m)
虽然概率论的内容很多,但是在实际中用到的其实主要就是上述的几个概念。基于测度论的高等概率论,几大会议(www,sigir等等)中出现的论文中基本都不会出现。
2. 信息论基础
    主要常用的概念:熵,条件熵,KL散度,以及这三者之间的关系,最大熵原理,信息增益(information gain)
3. 分类
    朴素贝叶斯,KNN,支持向量机,最大熵模型,决策树的基本原理,以及优缺点,知道常用的软件包
4. 聚类
    非层次聚类的K-means算法,层次聚类的类型及其区别,以及算距离的方法(如single,complete的区别a),知道常用的软件包
5. EM算法
    理解不完全数据的推断的困难,理解EM原理和推理过程
6. 蒙特卡洛算法(特别是Gibbs采样算法o)
    知道蒙特卡洛算法的基本原理, 特别了解Gibbs算法的采样过程;Markov 随机过程和Markov chain等
7. 图模型
     图模型最近几年非常的热,也非常重要, 因为它能把之前的很多研究都包括在内,同时具有直观之意义。 如CRF, HMM,topic model都是图模型的应用和特例。
    a. 了解图模型的一般表示(有向图和无向图模型x),通用的学习算法( learning)和推断算法(inference), 如Sum-product算法,传播算法等
    b.  熟悉HMM模型,包括它的假设条件,以及前向和后向算法; 
    c.  熟悉LDA模型,包括它的图模型表示i,以及它的Gibbs 推理算法;变分推断算法不要求掌握。
    d. 了解CRF模型,主要是了解它的图模型表示,如果有时间和兴趣a, 可以了解推理算法;
    e.  理解HMM,LDA, CRF和图模型的一般表示, 通用学习算法和推理算法之间的联系和差别;
    f.  了解Markov logic network(MLN), 这是建构在图模型和一阶逻辑基础上的一种语言, 可以用来描述很多现实问题,初步的了解,可以帮助理解图模型;
8. topic model
    这个模型的思想被广泛地应用,全看完没有必有也没有时间, 推荐如下:
    a. 深入理解pLSA和LDA, 同时理解pLSA和LDA之间的联系和区别;这两个模型理解后, 大部分的topic model的论文都是可以理解的了, 特别是应用到NLP上的topic  
         model。同时,也可以自己设计自己需要的非层次topic model了。
    b. 如果想继续深入,继续理解hLDA模型, 特别是理解背后的数学原理Dirichlet Process,这样你就可以自己设计层次topic model了;
    c. 对于有监督的topic model,一定要理解s-LDA和LLDA两个模型, 这两个模型体现了完全不同的设计思想,可以细细体会, 然后自己设计自己需要的topic model;
    d. 对于这些模型的理解,Gibbs 采样算法是绕不开的坎;
9. 最优化和随机过程
    a. 理解约束条件是等号的最优化问题及其lagrange乘子法求解
    b. 理解约束条件是不等号的凸优化问题,理解单纯形法;
    c. 理解梯度下降法,模拟退火算法;
    d. 理解爬山法等最优化求解的思想
    e. 随机过程需要了解随机游走,排队论等基本随机过程( 论文中偶尔会有,但不是太常见n),理解Markov 随机过程(非常重要,采样理论中常用l);
10. 贝叶斯学习
   目前越来越多的方法或模型采用贝叶斯学派的思想来处理数据, 因此了解相关的内容非常必要。
   a.  理解贝叶斯学派和统计学派的在思想和原理上的差别和联系;
   b.  理解损失函数,及其在贝叶斯学习中的作用;记住常用的损失函数;
   c.  理解贝叶斯先验的概念和四种常用的选取贝叶斯先验的方法;
   d.  理解参数和超参数的概念,以及区别;
   e.  通过LDA的先验选取(或者其它模型i) 来理解贝叶斯数据处理的思想;
11. 信息检索模型和工具
    a.  理解常用的检索模型;
    b.  了解常用的开源工具(lemur,lucene等ng)
12. 模型选择和特征选取
    a. 理解常用的特征选择方法,从而选择有效特征来训练模型;
    b. 看几个模型选择的例子,理解如何选择一个合适模型;(这玩意只能通过例子来意会了)
13. 论文写作中的tricks
    技巧是很多的,这里略。
     建议每当有同学的论文有评审意见之后,认真琢磨,对于提高写作能力很有帮助。

上述的模型和算法,也许学过之后但是记不住,个人意见: 没有关系,再次看的时候就很快了。

Xianling Mao, Search Engine & Web Mining Group
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
EIS 环境下的数据挖掘技术的研究.caj FCC油品质量指标智能监测系统的数据挖掘与修正技术.caj IDSS 中数据仓库和数据挖掘的研究与实现.caj InternetWeb数据挖掘研究现状及最新进展.caj Internet数据挖掘原理及实现.caj Min-Max模糊神经网络的应用研究.pdf OLAP与数据挖掘一体化模型的分析与讨论.caj OLAP和数据挖掘技术在Web日志上的应用.caj ON-LINE REDUCING MACHINING ERRORS IN BORING OPERATIONBY FORECASTING COMPENSATORY CONTROL TECHNIQUE.pdf SDSS中空间数据挖掘部件的设计与实现.kdh swlms.pdf Web上的数据挖掘技术和工具设计.kdh Web使用模式研究中的数据挖掘.caj Web数据挖掘技术及工具研究.kdh Web数据挖掘技术探讨.kdh Web数据挖掘的BN实现方案.kdh XML与面向Web的数据挖掘技术.caj 一个新的数据挖掘模型与算法.caj 一个面向电子商务的数据挖掘系统的设计与实现.caj 一种估计人工神经网络泛化误差的新方法.pdf 一种基于数据仓库的数据挖掘系统的结构框架.caj 一种基于神经网络数据挖掘方法.caj 一种基于遗传算法的模糊神经网络最优控制.pdf 一种实时过程控制中的数据挖掘算法研究.caj 一种建立模糊模型的粗糙集方法.pdf 一种新型数据分析技术——数据挖掘.caj 一种新的高效关联规则数据挖掘算法.caj 一种有效的用于数据挖掘的动态概念聚类算法.caj 一种测试数据挖掘算法的数据源生成方法.caj 一种自适应模糊控制器.pdf 一类递归RBF神经网络模型的稳定性讨论.pdf 不确定性线性系统模型处理的一种新方法.pdf 中介粗集及其在数据挖掘中的应用.caj 二进神经网络隐元数目最小上界研究.pdf 以地物识别和分类为目标的高光谱数据挖掘.caj 信息技术在全球银行业的应用(六)——数据挖掘技术及其应用.kdh 信息技术在全球银行业的应用(六)——数据挖掘技术及其应用1.kdh 信息检索中的数据挖掘技术.caj 信息系统中一种面向粗糙集的数据挖掘方法.caj 全连接回归神经网络的稳定性分析.pdf 关注政府上网后的数据挖掘.kdh 决策支持分析新技术——数据挖掘.caj 分类特征规则的数据挖掘技术.caj 利用决策树进行数据挖掘中的信息熵计算.caj 利用模糊神经网络进行数据挖掘的一种算法.caj 前向网络bp算法在数据挖掘中的运用.caj 区间值属性不完全信息下的数据挖掘.caj 可视化数据挖掘技术及其应用.caj 在IDS中利用数据挖掘技术提取用户行为特征.caj 基于CORBA的数据挖掘工具KDD-DC.caj 基于Web的数据仓库与数据挖掘技术.caj 基于Web的数据挖掘技术及访问路径模式的研究.caj 基于XML的WEB数据挖掘技术.kdh 基于中心流形定理的永磁同步电动机模型的分支分析.pdf 基于云模型的Web日志数据挖掘技术.caj 基于代理的分布式数据挖掘系统设计.caj 基于信息熵的地学空间数据挖掘模型.caj 基于关联规则的舰艇故障诊断数据挖掘系统结构框架.caj 基于增强型算法并能自动生成规则的模糊神经网络控制器.pdf 基于多媒体数据库的数据挖掘系统原型.caj 基于小波理论的数据挖掘方法研究.caj 基于属性分类的数据挖掘方法.caj 基于改进Elman网的非线性系统的自适应建模与预估.pdf 基于数据抽取器实现数据挖掘.caj 基于数据挖掘建立动态人事管理决策系统.kdh 基于数据挖掘建立高校系科办学评估体系的合理性评价系统.caj 基于数据挖掘技术的抽油机泵参调整DSS决策支持系统.caj 基于数据挖掘方法的电子邮件过滤.caj 基于数据挖掘模型的高压输电线系统故障诊断.caj 基于数据挖掘的地下硐室围岩稳定性判别.caj 基于数据挖掘的普通话韵律规则学习.caj 基于数据挖掘的智能化入侵检测系统.caj 基于数据挖掘的深部采场岩爆知识的自动获取.caj 基于数据挖掘知识发现在MDSS中的应用研究.caj 基于数据挖掘的类比推理技术在石油产品分析系统中的实现.caj 基于数据挖掘的类比推理技术在石油产品分析系统中的实现1.caj 基于数据挖掘的群决策模型.caj 基于智能化数据挖掘的高新技术监测分析技术研究.caj 基于模糊对向神经网络的非线性动态系统辨识器.pdf 基于模糊规则的非线性系统建模方法.pdf 基于模糊逻辑的一类非线性系统直接自适应控制.pdf 基于相联规则的数据挖掘理论.caj 基于知识应用的数据挖掘技术理论分析与应用研究.caj 基于神经网络的多模态控制器设计.pdf 基于神经网络的非线性Smith预估器.pdf 基于粗糙集(Rough set)的数据挖掘及其实现.caj 基于粗糙集理论的数据挖掘模型.caj 基于粗糙集理论的数据挖掘的应用.caj 基于粗糙集理论的数据挖掘算法及其应用研究.kdh 基于粗糙集理论的数据挖掘算法研究.caj 基于系统补偿和遗传算法的动态测量方法.pdf 基于约束的多维数据挖掘技术.caj 基于遗传算法和受控随机搜索的系统优化策略.pdf 基于高校人事信息库的数据挖掘研究.caj 多媒体数据挖掘的相关媒体特征库方法.caj 多段支持度数据挖掘算法研究.caj 工业控制计算机的发展与前景.pdf 带Rough算子的决策规则及数据挖掘中的软计算.caj 异步电机定子电流的内模自适应控制及实现.pdf 感应电机磁场定向变结构型模糊变频调速系统的分析与设计.pdf 挖掘.com公司──数据挖掘技术和.com公司.caj 挖掘转移规则一种新的数据挖掘技术.caj 探索式数据挖掘模型的讨论.caj 控制系统多媒体仿真软件的研制.pdf 搭建基于数据挖掘技术的邮政物流信息平台.kdh 支持向量机多专家决策算法.pdf 改进型B样条模糊神经网络.pdf 数据仓库、数据挖掘在银行中的应用.caj 数据仓库、数据集市和数据挖掘.caj 数据仓库与数据挖掘.caj 数据仓库与数据挖掘1.caj 数据仓库与数据挖掘12.caj 数据仓库与数据挖掘技术及其在科技情报业的应用前景.caj 数据仓库与数据挖掘技术在电力系统中的应用.caj 数据仓库与数据挖掘技术浅谈.caj 数据仓库和数据挖掘技术在ERP中的应用.kdh 数据仓库的建设与数据挖掘技术浅析.caj 数据仓库的建设与数据挖掘技术浅析1.caj 数据挖掘 企业决策分析的有效工具.caj 数据挖掘——技术与应用综述.caj 数据挖掘、OLAP在决策支持系统中的应用.caj 数据挖掘与决策支持系统.caj 数据挖掘与决策支持系统的关系.caj 数据挖掘与数据库知识发现.caj 数据挖掘与电力系统 12.caj 数据挖掘与电力系统.caj 数据挖掘与电力系统1.caj 数据挖掘与虚拟数据库.caj 数据挖掘中Fuzzy c-means的自适应聚类算法.caj 数据挖掘中信息颗粒及其构造.caj 数据挖掘中决策树算法的探讨.caj 数据挖掘中概念树的标准、生成和实现.kdh 数据挖掘知识管理与表达系统的设计与实现.caj 数据挖掘中聚类算法比较研究.caj 数据挖掘分类问题的贪婪粗糙集约简算法.caj 数据挖掘原理、方法及其应用.caj 数据挖掘及其在 SXWG_EIS 中的应用.caj 数据挖掘及其在商业银行中的应用.caj 数据挖掘及其在电力系统中的应用.kdh 数据挖掘及其在电力系统中的应用1.kdh 数据挖掘及其在通信侦察信号处理中的应用.caj 数据挖掘及其对统计学的挑战.caj 数据挖掘及其工具的选择.caj 数据挖掘及在营销中的应用.caj 数据挖掘和数据仓库及其在电信业中的应用.caj 数据挖掘知识发现的技术方法.caj 数据挖掘在Internet信息导航系统中的应用研究.caj 数据挖掘在包装产品网络营销中的应用.caj 数据挖掘在音高变化规律学习中的应用.caj 数据挖掘工具DMTools的设计与实现.caj 数据挖掘工具和应用中的问题.caj 数据挖掘技术.caj 数据挖掘技术1.caj 数据挖掘技术12.caj 数据挖掘技术123.caj 数据挖掘技术与中国商业银行业务发展策略.caj 数据挖掘技术初探.caj 数据挖掘技术及其在地学中的应用.caj 数据挖掘技术及其在电力系统中的应用.caj 数据挖掘技术及其在电力系统中的应用1.caj 数据挖掘技术及其在营销中的应用.caj 数据挖掘技术及其实现.caj 数据挖掘技术及其应用.caj 数据挖掘技术及其应用1.caj 数据挖掘技术及其应用123.caj 数据挖掘技术及在电子商务中的应用.caj 数据挖掘技术在UNIX系统性能分析中的应用.caj 数据挖掘技术在Web上的应用及其工具设计.caj 数据挖掘技术在Web预取中的应用研究.caj 数据挖掘技术在入侵检测系统中的应用.kdh 数据挖掘技术在农业数据中的有效应用.kdh 数据挖掘技术在建模、优化和故障诊断中的应用.caj 数据挖掘技术在煤与瓦斯突出预测中的应用研究.caj 数据挖掘技术在税务系统中的应用.caj 数据挖掘技术在网络广告定制中的应用.kdh 数据挖掘技术在财经领域的应用.caj 数据挖掘技术应用研究.kdh 数据挖掘技术的一个应用模型.caj 数据挖掘技术的主要方法及其发展方向.caj 数据挖掘数据仓库构架的拓展.caj 数据挖掘方法的研究.caj 数据挖掘方法的评述.caj 数据挖掘的软分类方法.caj 数据挖掘管理系统.caj 数据挖掘系统的一种实现策略.caj 数据挖掘系统设计.caj 文本挖掘、数据挖掘知识管理——二十一世纪的智能信息处理.caj 文本数据的数据挖掘算法.caj 新的鲁棒推理控制系统设计方法.pdf 无换向器电动机在窑尾排风上的应用.pdf 最优加权系数的神经优化方法.pdf 格子机数据挖掘方法.caj 模糊控制在现场总线控制系统中的应用.pdf 模糊控制系统近年来的研究与发展.pdf 模糊数据挖掘.caj 模糊聚类辨识算法.pdf 模糊逻辑系统的GA+BP混合学习算法.pdf 浅说数据挖掘.caj 混沌神经网络及其在最优化问题中的应用.pdf 特种电动机高压阀门准确制动的仿真计算.pdf 现场智能控制装置的研究与开发.pdf 用PID梯度算法训练基于神经网络的广义非线性PID控制器.pdf 用SQL Server2000构建数据挖掘解决方案.caj 用于建模、优化、故障诊断的数据挖掘技术.caj 用于数据挖掘的贝叶斯网络.caj 用于电子商务中的数据挖掘技术研究.caj 用户访问模式数据挖掘的模型与算法研究.caj 用数据挖掘技术优选侧钻井井位.caj 电信网告警数据库中的数据挖掘.caj 电子商务与Web数据挖掘.caj 目前数据挖掘算法的评价.caj 相关案件的数据挖掘.caj 知识发现与数据挖掘.caj 知识发现和数据挖掘的研究.caj 神经网络专家系统及其数据挖掘技术的探讨.caj 神经网络分类器的特征提取和优选.pdf 神经网络数据挖掘中的应用研究.caj 神经网络数据挖掘方法中的数据准备问题.kdh 空间数据挖掘技术.caj 空间数据挖掘理论与方法的研究.caj 粗集数据挖掘方法MIE-RS的设计与实现.caj 红外光谱谱图库中的数据挖掘.caj 结合数据融合和数据挖掘的医疗监护报警.caj 结合粗糙集理论与扩张矩阵理论的数据挖掘方法.caj 股票信息的数据挖掘.caj 试论数据挖掘机器学习、统计学、数据库的关系.caj 遗传算法的自适应代沟的替代策略研究.pdf 金融数据挖掘中的非线性相关跟踪技术(英文).caj 非线性控制系统的近似化方法.pdf 非线性时延对象的神经网络控制.pdf 非线性系统的鲁棒采样最优控制.pdf 非线性系统鲁棒控制理论的一些新进展.pdf 非线性系统鲁棒耗散控制.pdf 面向21世纪的过程控制技术.pdf 面向属性的RST在数据挖掘中的应用.caj 面向数据挖掘的时间序列符号化方法研究.kdh 面向集成竞争情报系统的数据挖掘应用研究.caj 预测性模型中的一种数据挖掘算法.kdh

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值