- 博客(1)
- 收藏
- 关注
原创 一种提取HTML网页正文的方法
这里所说的正文提取主要是针对新闻页面等网页的主体是文字的HTML页面。在做一些与文本处理相关的实验时往往需要大量的文本,虽然网络上已经存在了一些开放数据集如搜狗语料库,但是有的时候也需要根据具体的需求来爬取特定的网站。在我们通过算法获得了需要的HTML页面以后,如何获取页面的正文是一个需要考虑的问题。如果是针对某一个网站的爬取工作,同一网站编码风格往往是一致的,这时只需要简单的浏览一下包含正文的标
2015-09-12 13:39:32 12809 2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人