文本挖掘技术(04812052)

主讲:杨建武yangjianwu@icst.pku.edu.cn 
助教:王晨峰wangchenfeng@icst.pku.edu.cn 
    

授课时间:周四 18:30--21:00

授课地点:文史楼 219

考试时间:2009-06-11(周四) 18:30--20:30

考试地点:一教104

 

课程主页:http://www.icst.pku.edu.cn/course/TextMining/08-09Spring/index.html

 

课程作业要求及评分细则

 

 

课程介绍


    随着信息技术的发展,信息量爆炸性增长,其中80%是非结构化信息。如何对这些非结
构化信息进行有效的分析处理成为学术界和工业界的研究热点。本课程是一门综合性的技术
研究课程,涉及数据挖掘、信息检索和自然语言处理等研究领域。课程的学习有助于我院学
生了解学术前沿,锻炼基础知识的综合应用能力,对于今后的学术研究或应用技术研发均具
有重要意义。
 

 

 课程讲义下载


2009-02-19

第一章

引言
2009-02-26

第二章

文本特征提取技术
2009-03-05

第三章

文本检索技术(part1)
2009-03-12

第三章

文本检索技术(part2)
2009-03-19

第四章

文本自动分类技术
2009-03-26

第五章

文本自动聚类技术
2009-04-02

第六章

话题检测跟踪技术
2009-04-09

第七章

文本过滤技术

第八章

关联分析技术
2009-04-16

第九章

文档自动摘要技术

第十章

信息抽取技术
2009-04-23

第十一章

2009-04-30

第十二章

文本情感分析技术

第十三章

Ontology技术

2009-05-07

第十四章

半结构化文本挖掘方法

第十五章

2009-05-14

讲座

 

2009-05-21

作业报告

课程作业交流报告

2009-05-28 

(端午节放假)

2009-06-04

复习答疑

2009-06-11

考试

地点:一教104

 

 

课程各章节说明

Ø         第一章:引言(2学时)

n         目的与要求:介绍文本挖掘概念与本课程的主要内容

n         主要内容

u       文本挖掘的概念与研究意义

u       文本挖掘的主要内容

u       本课程的总体安排

Ø         第二章:文本特征提取技术(4学时)

n         目的与要求:如何将文档转换成一组数学特征

n         主要内容

u       分词方法

u       短语识别与命名实体识别

u       向量空间模型与概率模型

u       文档间相似性度量

u       隐语义分析(LSA)

Ø         第三章:文本检索技术(6学时)

n         目的与要求:介绍文本检索的主要类型与技术

n         主要内容

u       信息检索模型

u      检索质量评价

u       倒排索引与全文检索技术

u       全文检索系统介绍

u       高维索引技术

Ø         第四章:文本自动分类技术(3学时)

n         目的与要求:文本自动分类技术介绍

n         主要内容

u       自动分类算法概述

u       KNN文本分类

u       SVM文本分类

Ø         第五章:文本自动聚类技术(3学时)

n         目的与要求:文本自动聚类技术介绍

n         主要内容

u       聚类技术概述

u  基于划分的K-Means文本聚类及变种

u      层次聚类、密度聚类、网格聚类

u       基于后缀树的文本聚类算法

Ø         第六章:话题检测跟踪技术(3学时)

n         目的与要求:介绍话题检测跟踪技术

n         主要内容

u       话题检测跟踪技术(TDT)相关概念

u       主题检测技术主要算法

u       主题追踪技术主要算法

u       TDT评测

Ø         第七章:文本过滤技术(1.5学时)

n         目的与要求:介绍文本过滤技术

n         主要内容

u  信息过滤概念

u       文本过滤方法

u       邮件过滤

Ø         第八章:关联分析技术(1.5学时)

n         目的与要求:介绍关联分析技术

n         主要内容

u       关联分析主要算法

u       关联分析在文本分析中的应用

Ø          第九章:文档自动摘要技术(1.5学时)

n         目的与要求:介绍文本摘要技术

n         主要内容

u       自动摘要概述

u       面向主题的文档摘要技术

u       多文档摘要技术

Ø         第十章:信息抽取(1.5学时)

n         目的与要求:介绍信息提取技术

n         主要内容

u       信息抽取介绍

u       信息提取的基本方法

u       基于模式学习的信息抽取方法

Ø         第 十一章:智能问答(QA)技术(3学时)

n         目的与要求:智能问答(Question & Answering)技术

n         主要内容

u  问答系统的概念与历史

u  QA@TREC

u       Pattern-based Approach

u       Knowledge-Based Approach

u       Web-based Approach

Ø         第十二章:文本情感分析技术(1.5学时)

n         目的与要求:介绍文本情感分析技术

n         主要内容

u       情感计算的概念

u       词或短语的情感倾向

u       文档与句子的情感倾向

u       观点挖掘

Ø         第十三章:Ontology1.5学时)

n         目的与要求:介绍本体和语义网的概念

n         主要内容

u   本体(Ontology)的概念

u  Semantic Web 与 OWL

u  词网 WordNet

u   知网 HowNet

Ø         第十四章:半结构化文本挖掘方法(1.5学时)

n         目的与要求:介绍一些半结构化文本挖掘方法

n         主要内容

u       半结构化数据概念

u       结构信息的描述与利用

u       XML文本挖掘方法

Ø         第十五章:文本挖掘工具与应用(1.5学时)

n         目的与要求:介绍当前文本挖掘工具与典型应用场景

n         主要内容

u       文本挖掘在企业竞争情报系统中的应用

u       文本挖掘在企业客户关系管理中的应用

u       文本挖掘在网上舆情预警系统中的应用

u       IBM Text Miner

u       SAS Text Miner

u  Autonomy IDOL Server

u       方正智思中文文本挖掘平台

Ø         课程作业课堂报告(3学时)

n         目的与要求: 课程作业课堂报告交流

n         主要内容

u       学生分别介绍各自小组的课程实习和个人主要工作

n         主要参考文献

u       (无)

 

参考文献


    Ø 第一章  引言

        n  Hearst, Untangling Text Data Mining, Proc. of ACL'99: the 37th Annual Meeting of the Association for Computational Linguistics, University of Marylnd, 1999. (URL; .mht)

 

    Ø 第二章  特征提取

        n  孙茂松、邹嘉彦 汉语自动分词研究评述。《当代语言学》2001年第1期 pp. 22-32 (.pdf)

        n  M. Hearst. TextTiling: segmenting text into multi-paragraph subtopic passages. Computational Linguistics , 23 (1): 33-64, March 1997. (.pdf)

        n  J.G. Conrad and M.H. Utt. A system for discovering relationships by feature extraction from text databases. In SIGIR-94 conference proceedings. (.pdf)

        n  G. Salton and C. Buckley. Term-weighting approaches in automatic text retrieval. Information Processing Management, 24(5):513--523, 1988.

        n  S. Deerwester, S. T. Dumais, T. K. Landauer, G. W. Furnas, and R. A. Harshman, Indexing by latent semantic analysis, Journal of the Society for Information Science, 41(6), 391-407, 1990. (.pdf)

        n  svdpack: http://www.netlib.org/svdpack/

 

    Ø 第三章  文本检索技术

        n  Smart retrieval system:   ftp://ftp.cs.cornell.edu/pub/smart/

        n  Okapi system:   http://www.soi.city.ac.uk/~andym/OKAPI-PACK/index.html

        n  Lemur Toolkit:   http://www.lemurproject.org/

        n  Lucene:  http://jakarta.apache.org/lucene/

        n  G. Salton, and M. J. McGill, Introduction to Modern information Retrieval. McGraw-Hill, 1983.

        n  Christian Digout. Metric Techniques for High-Dimensional Indexing Technical Report TR 04-19 September 2004 (.pdf)

 

    Ø 第四章  文本自动分类技术

        n   F. Sebastiani. “Machine learning in automated text categorization.” ACM Computing Surveys, 34(1), pp. 1-47, 2002. (.pdf)

        n  M. Rogati and Y. Yang. High-performing feature selection for text classification  ACM CIKM 2002. (.pdf)

        n  Tie-Yan Liu, Yiming Yang, Hao Wan, et al, Support Vector Machines Classification with Very Large Scale Taxonomy, SIGKDD Explorations, Special Issue on Text Mining and Natural Language Processing, vol.7, issue.1, pp36~43, 2005. (.pdf)

        n  苏金树、张博锋、徐 昕,基于机器学习的文本分类技术研究进展 软件学报 17(9): 1848-1859, 2006.9 (.pdf)

        n  基于统计学习理论的支持向量机算法研究 http://www.youngfan.com/nn/SVM.pdf (.pdf)

        n  瓦普尼克(著),张学工(译),统计学习理论的本质 清华大学出版社 2004.6

        n  SVMlight  http://svmlight.joachims.org/

        n  SVMTorch http://bengio.abracadoudou.com/projects/SVMTorch.html

 

    Ø 第五章  文本自动聚类技术

        n Jiawei Han、Micheline Kamber. Data Mining:Concepts and Techniques 高等教育出版社 2001年
(范明、孟小峰等译,数据挖掘概念与技术 机械工业出版 2001年8月) (Chapter 8 Cluster Analysis)

        n Daniel Fasulo. An analysis of recent work on clustering algorithms. Technical Report UW-CSE-01-03-02, University of Washington,1999. (.pdf)

        n Zamir O., Etzioni O. Web Document Clustering: A Feasibility Demonstration, Proceedings of the 19th International ACM SIGIR Conference (SIGIR'98), 1998. (.pdf)

        n  Hua-Jun Zeng, etc. Learning to Cluster Web Search Results, SIGIR’04, 2004. (.pdf)

 

    Ø 第六章  话题检测跟踪技术

        n TDT评测 http://www.nist.gov/speech/tests/tdt/index.htm

        n J. Allan, R. Papka, and V. Lavrenko. On-line new event detection and tracking. In Proc. of SIGIR Conference on Research and Development in Information Retrieval, 1998. (.pdf)

        n Y. Yang, T. Pierce, and J. G. Carbonell. A study on retrospective and on-line event detection. In Proc. of SIGIR Conference on Research and Development in Information Retrieval, 1998. (.pdf)

        n Y. Yang and J. Z. et al. Topic-conditioned novelty detection. In Proc. of the SIGKDD international conference on Knowledge discovery and data mining, 2002. (.pdf)

        n Jian Zhang, Zoubin Ghahramani and Yiming. Yang. A Probabilistic Model for Online Document Clustering with Application to Novelty Detection. In Proceedings of NIPS 2004, Vancouver, Canada, 2004. (.pdf)

        n Zhiwei Li, Bin Wang, Mingjing Li, etc. A Probabilistic Model for Retrospective News Event Detection. In Proc. of the SIGIR Conference on Research and Development in Information Retrieval, 2005. (.pdf)

        n D. Frey, R. Gupta, V. Khandelwal, V. Lavrenko, A. Leuski, and J. Allan, "Monitoring the News: a TDT demonstration system", demonstration appearing in Proceedings of the Human Language Technology Conference (HLT), 351-355, 2001. (.pdf)

 

    Ø 第七章  文本过滤技术

        n TREC评测 http://trec.nist.gov/

        n 黄萱菁, 夏迎炬, 吴立德 基于向量空间模型的文本过滤系统 软件学报 2003,14(3) 435-442 (.pdf)

        n Andrej Bratko, Gordon V. Cormack, Bogdan Filipic, Thomas R. Lynam and Blaz Zupan,Spam Filtering Using Statistical Data Compression Models,Journal of Machine Learning Research,Dec. 2006. pp 2673--2698 (.pdf)

 

    Ø 第八章  关联分析技术

        n Jiawei Han、Micheline Kamber. Data Mining:Concepts and Techniques 高等教育出版社 2001年
(范明、孟小峰等译,数据挖掘概念与技术 机械工业出版 2001年8月) (Chapter 6)

        n 钱铁云, 王元珍, 冯小年 结合类频率的关联中文文本分类 中文信息学报 2004 18(6): 30-36 (.pdf)

        n 宋擒豹,  沈钧毅 基于关联规则的Web文档聚类算法 软件学报 2002 13(03): 417-423 (.pdf)

 

    Ø 第九章  文档自动摘要技术

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值