自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

golzygo的专栏

12月 11月 09月 01月

原创用htmlparser截取新闻内容 java

<br />最近做毕设，需要从各大网站上下载网页，并提取出标题，作者，正文，日期等新闻内容。标题，作者，日期等因为长度较小，变化少，所以很容易搞定，而正文的抽取对于我这个刚学htmlparser的人来说就有些复杂了。由于正文标签中各种类型子标签的存在（如图片信息，超链接，粗体），使提取正文的内容变得有些不易。最近刚发现了StringBean这个好东西，它是visitor的一个子集，遍历所有节点，抽取文字信息，但是如果直接使用，遍历所有节点，会导致抓取到不需要的信息。所以，解决方法是，先用filter过滤到符

2011-01-10 20:42:00 2894 1

原创 GBK转UTF-8的方法 JAVA

最近在做一个能分析网站新闻的网络爬虫，对方要求中文的新闻信息用UTF-8存储。可是国内大部分新闻网站的网页源代码里的中文都是GB2312的，所以必须转成UTF-8.在网上搜了很多方法，有人自己写的，有人用String newcontent=new String(content.getBytes("GBK"),"UTF-8");这种方法，可是试过之后，好好的汉字都变成了乱码。于是到搜了一下英文网页，很快就找到了解决之道。缺点是不是直接在内存中进行转换，而是把以GBK编码存储的文件转换成以UTF-8编码存储的文

2011-01-10 19:48:00 3917

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

golzygo CSDN认证博客专家 CSDN认证企业博客

码龄16年

IP 属地：辽宁省

IP属地以运营商信息为准，境内显示到省（区、市），境外显示到国家（地区）

20: 原创

107万+: 周排名

133万+: 总排名

15万+: 访问

: 等级

1647: 积分

4: 粉丝

13: 获赞

10: 评论

19: 收藏

私信

关注

热门文章

分类专栏

java 2篇
数值分析 3篇
C++ 12篇
netbeans 6篇
杂项 6篇
mac 5篇
linux 6篇
Qt 4篇
录像 1篇

最新评论

解决Qt Debug总是Segmentation fault的一种方法
#Page#: 哥压根没开过防火墙也一直这样
recvfrom()中如何接收结构体
楼兰公子: struct{ int id; union{ struct st1{}; struct st2{}; struct st3{}; };
（未验证）RPC解决"Cannot register service: RPC:..."问题
gamebeta: 我在centos6.8上编译安装rpc.rstatd 4.0.1后，用root权限执行也提示这个 Client credential too weak错误，系统里portmap已经被rpcbind服务取代。后来搜了一圈发现是hosts.allow里访问被阻。加了句rpcbind:127.0.0.1 终于没提示出错了
MacBook Air安装Ubuntu双系统
baidu_26054597: 你就是个烂货么。。还21世纪人才
如何从windows的command line运行Qt程序
sunshine757961368: 你好，想请问一下，你运行的是exe程序还是那个文件啊？我也是想用cmd启动qt程序，可是启动不起来，不管运行那个文件都说不是可运行程序。。。

最新文章

提示

确定要删除当前文章？

取消删除