HTML提取信息,一种通用HTML网页主题信息提取方法*

1Michael W Berry, Murray Browne. Understand Search Engines:Mathematical Modeling and Text Retrieval.Philadelphia:Society for Industrial and Applied Mathematics,1999.116

2Buyukkokten O,Garcia2Molina H,Paepcke A. Accordion summarization for end-game browsing on PDAs and cellular phones.In: Proc of ACM Conf on Human Factors in Computing Systems(CHI 2001). New York:ACM Press, 2001.213-220

3Yi L, Liu B,  Li X.Eliminating Noisy Information in Web Pages for Data Mining.http://www.cs.uic.edu/~liub/publications/kdd2003-WebNoise.pdf(Accessed Oct.17,2005)

4欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法清华大学学报(自然科学版), 2005,45(1): 1743-1747

5Suhit Gupta, Gail Kaiser, David Neistadt, Peter Grimm, “DOM-based Content Extraction of HTML Documents”, 12th International World Wide Web Conference, 2003(5): 207-214

6孙承杰,关毅. 基于统计的网页正文信息抽取方法的研究 中文信息学报,2004(4):17-22

7Stenback J, Hegaret P L, Hors A L. Document Object Model (DOM ) Level 2 HTML Specification.http://www.w3.org/TR/2003/REC-DOM-Level-2-HTML-20030109/DOM2-HTML.html#html-ID-1176245063,2003(Accessed Oct.17,2005)

8CyberNeko HTML Parser. http://www.apache.org/~andyc/neko/ doc/ html/ index.html(Accessed Oct.17,2005)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值