- 博客(1)
- 资源 (13)
- 收藏
- 关注
原创 多种基于html正文提取的思想
一、基于统计的中文网页正文抽取的研究 摘 要:信息抽取技术是一种广泛运用于互联网的数据挖掘技术。其目的是从互联网海量数据中抽取有意义、有价值的数据和信息,从而能更好的利用互联网资源。文中采用一种统计网页特征的方法,将中文网页中的正文部分抽取出来。该方法首先将网页表示成基于XML的DOM树形式,利用统计的节点信息从树中过滤掉噪音数据节点,最后再选取正文节点。该方法相比传统的基于包装器
2009-06-26 10:02:00 9259 3
16.5 pdflm16.dll
pdflm16.dll powerdesigner16.5 pdflm16.dll powerdesigner16.5 pdflm16.dll powerdesigner16.5
2017-12-26
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人