任何技术最终都要转入产业才能实现其价值,技术都是为人们服务的。
软件本质就是工具,善于运用的工具的人能使用其产生巨大的回报。
某微就是个聊天工具,却有人将其用于其它用途,还真成就了一批富豪。
君子性非异也,善假于物也。
爬取电话号码,和邮箱
核心原理代码部分:
/**
* 获取网页document
* @param site
* @return
*/
public static Document getSiteConn(String site){
try {
// 爬取的目标网站
String targetURL = site;
URL url = new URL(targetURL);
// 获取connect
Connection connection = Jsoup.connect(targetURL);
// 伪造请求头
connection.header("Accept", "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8");
connection.header("Accept-Encoding", "gzip, deflate, br");
connection.header("Accept-Language", "zh-CN,zh;q=0.9");
connection.header("Cache-Control", "max-age=0");
connection.header("Connection", "keep-alive");
connection.header("Cookie", "");
connection.header("Host", url.getHost());
connection
.header("User-Agent",
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36");
connection.ignoreHttpErrors(true);
// 执行
Connection.Response execute = connection.method(Connection.Method.GET)
.execute();
// 获取Document,这里的document就代表者爬取下来的整个页面
Document document = execute.parse();
return document;
} catch (Exception e) {
e.printStackTrace();
return null;
}
}
欢迎一起学习交流
v:lb87626