
网络
介绍网络相关技术博客
黄宝康
这个作者很懒,什么都没留下…
展开
-
内网外网的连通
实验机器:Centos8服务器一外网ip192.168.37.129 ens33 NAT模式内网ip192.168.124.128 ens37 仅主机模式Centos8服务器二单网卡192.168.124.129 ens33 仅主机模式ping的情况双网卡ping 192.168.124.129 通ping www.baidu.com 通单网卡ping 192.168.124.128 通ping www.baidu.com 不通(无外网)远程连接情况单网卡原创 2021-05-11 08:58:21 · 968 阅读 · 0 评论 -
htmlunit 操作table表格(二)
内容转至http://blog.java1234.com/blog/articles/286.html 有时候表格比较复杂 有caption header body footer htmlunit同样提供了api支持:<!DOCTYPE html><html><head><meta charset="UTF-8"><tit...转载 2018-02-23 11:44:15 · 435 阅读 · 0 评论 -
htmlunit 操作table表格(一)
内容转至http://blog.java1234.com/blog/articles/285.html htmlunit提供了对table表格的操作支持:这里先演示下操作简单表格:<!DOCTYPE html><html><head><meta charset="UTF-8"><title>简单表格</titl..转载 2018-02-23 11:36:43 · 1200 阅读 · 0 评论 -
htmlunit 模拟超链接点击
htmlunit有强大DOM模拟操作功能 包括给Input设置数据,模拟按钮点击等;下面将演示htmlunit模拟点击超链接模拟点击http://www.3dns.com.cn/ 导航栏的产品中心超链接。通过id找到对应的ul元素,然后依次找到第四个li标签。。。演示代码如下:package com.hbk.htmlunit;import java.io.IOExc...原创 2018-02-23 11:24:35 · 3750 阅读 · 5 评论 -
htmlunit取消css,javascript支持
htmlunit默认是会对网页中的css,javascript解析的,对于一般的非Js加载页面采集,我们可以把css.javascript解析去掉,这样可以提高效率;但是对于Js加载的页面,就不能去掉了; 我们给下演示代码:package com.hbk.htmlunit;import java.io.IOException;import java.net.MalformedURLE...原创 2018-02-23 10:51:44 · 769 阅读 · 0 评论 -
htmlunit 使用代理IP
内容转至http://blog.java1234.com/blog/articles/282.html 有时候频繁的爬取第三方站点内容,会被站点的防火墙拦截,IP拉黑,所以这时候,就要用到代理IP,拉黑一个就换一个;htmlunit实用代理的方式比较简单,WebClient重载构造方法就有提供,我们看下演示代码:package com.hbk.htmlunit;import java...转载 2018-02-23 10:44:19 · 2110 阅读 · 0 评论 -
htmlunit 获取指定元素
htmlunit 提供了丰富的api来获取指定元素 jsoup有的 htmlunit也有;我们这里举例:package com.hbk.htmlunit;import java.io.IOException;import java.net.MalformedURLException;import com.gargoylesoftware.htmlunit.BrowserVers...原创 2018-02-23 10:28:56 · 2693 阅读 · 0 评论 -
htmlunit 模拟指定浏览器
前面我们的测试代码是直接请求的,有些网站服务器防火墙会直接拒绝访问。我们现在用htmlunit来模拟下浏览器请求;主要是加了一些头消息; 这个是我们用谷歌调试工具看到的请求头小心里的属性,当然上面还有返回的头消息;我们用htmlunit可以模拟浏览器执行,内置的可以模拟IE,火狐,谷歌;WebClient构造方法里有个重载方法,可以加一个指定版本属性;完整代码:pac...原创 2018-02-23 10:00:40 · 1227 阅读 · 0 评论 -
htmlunit helloWorld实现
首先我们新建一个Maven普通客户端项目,然后打开pom.xml引入htmlunit支持:<dependency> <groupId>net.sourceforge.htmlunit</groupId> <artifactId>htmlunit</artifactId> <version>2...原创 2018-02-23 09:48:27 · 503 阅读 · 0 评论 -
htmlunit简介
内容转至http://blog.java1234.com/blog/articles/278.html htmlunit 是一款开源的java 页面分析工具,读取页面后,可以有效的使用htmlunit分析页面上的内容。项目可以模拟浏览器运行,被誉为java浏览器的开源实现。是一个没有界面的浏览器,运行速度迅速。是junit的扩展之一采用的是Rhinojs引擎。模拟js运行常规意义上,该项...转载 2018-02-23 09:18:34 · 368 阅读 · 0 评论 -
Crawler4j快速入门实例
crawler4j是Java实现的开源网络爬虫。提供了简单易用的接口,可以在几分钟内创建一个多线程网络爬虫。github地址:https://github.com/yasserg/crawler4j 我们这里使用maven构建<dependency> <groupId>edu.uci.ics</groupId> <artifactId>crawler4j</artifact原创 2017-08-29 15:04:03 · 1325 阅读 · 2 评论