爬虫
网页爬虫
huangxr874668739
这个作者很懒,什么都没留下…
展开
-
拿网页代码的一些小方法
目前我正在使用的一些拿网页代码的一些小方法: Ø 在网页连接后加参数进行传参,然后直接用Jsoup post网页代码,这个是最简单的,如果可用使用,一般优先使用,特别是选择时间范围的网站,如http://www.nbct.com.cn:7001/nbct/qryChuanBoYuGao.jsp?date1=#{BeginTime}&date2=#{EndTime}&submit=%B2%E9+%原创 2014-09-12 17:13:36 · 749 阅读 · 0 评论 -
去除网页格式的空格
当进行网络爬虫的拿网页时间的时候时间中出现网页格式的空格,去除方法: private String replace_nbsp(String oldStr) { char oldC = (int) 160; char newC = ' '; oldStr =oldStr.replace(oldC, newC);原创 2014-09-12 17:25:13 · 1180 阅读 · 0 评论 -
HtmlUnit中屏蔽warnings
在使用HtmlUnit时会出现各种Warnings,如: 七月 30,2013 10:21:36 上午 com.gargoylesoftware.htmlunit.IncorrectnessListenerImplnotify WARNING: Expectedcontent type of 'application/javascript' or 'application/ecmascript转载 2014-09-12 17:27:43 · 1421 阅读 · 0 评论