自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(2)
  • 收藏
  • 关注

原创 用htmlparser截取新闻内容 java

<br />最近做毕设,需要从各大网站上下载网页,并提取出标题,作者,正文,日期等新闻内容。标题,作者,日期等因为长度较小,变化少,所以很容易搞定,而正文的抽取对于我这个刚学htmlparser的人来说就有些复杂了。由于正文标签中各种类型子标签的存在(如图片信息,超链接,粗体),使提取正文的内容变得有些不易。最近刚发现了StringBean这个好东西,它是visitor的一个子集,遍历所有节点,抽取文字信息,但是如果直接使用,遍历所有节点,会导致抓取到不需要的信息。所以,解决方法是,先用filter过滤到符

2011-01-10 20:42:00 2894 1

原创 GBK转UTF-8的方法 JAVA

最近在做一个能分析网站新闻的网络爬虫,对方要求中文的新闻信息用UTF-8存储。可是国内大部分新闻网站的网页源代码里的中文都是GB2312的,所以必须转成UTF-8.在网上搜了很多方法,有人自己写的,有人用String newcontent=new String(content.getBytes("GBK"),"UTF-8");这种方法,可是试过之后,好好的汉字都变成了乱码。于是到搜了一下英文网页,很快就找到了解决之道。缺点是不是直接在内存中进行转换,而是把以GBK编码存储的文件转换成以UTF-8编码存储的文

2011-01-10 19:48:00 3917

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除