自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

SeaTomorrow的博客

原创一种提取HTML网页正文的方法

这里所说的正文提取主要是针对新闻页面等网页的主体是文字的HTML页面。在做一些与文本处理相关的实验时往往需要大量的文本，虽然网络上已经存在了一些开放数据集如搜狗语料库，但是有的时候也需要根据具体的需求来爬取特定的网站。在我们通过算法获得了需要的HTML页面以后，如何获取页面的正文是一个需要考虑的问题。如果是针对某一个网站的爬取工作，同一网站编码风格往往是一致的，这时只需要简单的浏览一下包含正文的标

2015-09-12 13:39:32 12809 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

SeaTomorrow CSDN认证博客专家 CSDN认证企业博客

码龄9年

IP 属地：浙江省

IP属地以运营商信息为准，境内显示到省（区、市），境外显示到国家（地区）

1: 原创

138万+: 周排名

60万+: 总排名

1万+: 访问

: 等级

115: 积分

2: 粉丝

3: 获赞

2: 评论

4: 收藏

私信

关注

热门文章

一种提取HTML网页正文的方法 12809

分类专栏

Java 1篇
爬虫 1篇
正文提取 1篇
算法

最新评论

一种提取HTML网页正文的方法
neptuneillusion: 这类名和方法名起的怎么看怎么难受
一种提取HTML网页正文的方法
iphone概念机: 您好！您的代码我能用吗？想在我的爬虫框架中进行使用。不知道可以不？我在注释了放了您的博客网址。如有不妥之处，请联系619983341@qq.com

最新文章

一种提取HTML网页正文的方法

提示

确定要删除当前文章？

取消删除