java编写的网络爬虫

任何技术最终都要转入产业才能实现其价值,技术都是为人们服务的。

软件本质就是工具,善于运用的工具的人能使用其产生巨大的回报。

某微就是个聊天工具,却有人将其用于其它用途,还真成就了一批富豪。

君子性非异也,善假于物也。

爬取电话号码,和邮箱

核心原理代码部分:

/**
 * 获取网页document
 * @param site
 * @return
 */
public static Document getSiteConn(String site){
	try {
		// 爬取的目标网站
		String targetURL = site;
		URL url = new URL(targetURL);
		// 获取connect
		Connection connection = Jsoup.connect(targetURL);
		// 伪造请求头
		connection.header("Accept", "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8");
		connection.header("Accept-Encoding", "gzip, deflate, br");
		connection.header("Accept-Language", "zh-CN,zh;q=0.9");
		connection.header("Cache-Control", "max-age=0");
		connection.header("Connection", "keep-alive");
		connection.header("Cookie", "");
		connection.header("Host", url.getHost());
		connection
				.header("User-Agent",
						"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36");
		connection.ignoreHttpErrors(true);
		// 执行
		Connection.Response execute = connection.method(Connection.Method.GET)
				.execute();
		// 获取Document,这里的document就代表者爬取下来的整个页面
		Document document = execute.parse();
		return document;
	} catch (Exception e) {
		e.printStackTrace();
		return null;
	}		
}

爬取电话号码,爬取邮箱软件
欢迎一起学习交流
v:lb87626

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

我是杂牌军

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值