- 博客(4)
- 资源 (5)
- 收藏
- 关注
原创 小小编程之我见(1)---网页数据提取
在我们实际工作中,需要对目的网站进行采集提取,大概的思路是到达目的网站,进行目的网站网页读取,然后提取目标网页数据,获得目标数据存储到数据库。在Java编程中,HTTPclient和Jsoup是不错的组合。这里并不介绍这种方法,以后文章中可能提及到这种方法的具体实现,在这里简单介绍Java
2014-09-20 22:07:04 662
转载 NekoHtml 解析内容时需要注意的地方
如果需要在HTML页面中提取数据,那么NekoHTML 是个不错的工具。因为HTML跟XML不一样,可能存在一些格式不完整的元素,譬如没有end tag的table等,这个时候,NekoHTML是个很尽责的清道夫和修理工,可以帮助我们整理这些缺陷数据,最终生成一个DOM Tree。 得到DOM Tree话,使用XPath就可以轻松获取所需数据了:-) 下面是几个需要注意的问题: 1、
2014-09-10 15:25:10 2268
Heidisql管理工具
2015-01-13
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人