学习爬虫开发的前提是对http协议拥有足够的认识!
这里有一本《HTTP武功秘籍》,免费送给你!
前言:
有些网站的反扒策略非常狠,建议刚入手时选择一些没有反扒的网站!
上菜吧(这里的URL用例为CSDN的用户首页)
import java.io.ByteArrayOutputStream;
import java.io.IOException;
import java.io.InputStream;
import java.io.OutputStream;
import java.net.Socket;
import javax.net.ssl.SSLSocket;
import javax.net.ssl.SSLSocketFactory;
public class TestHttpClient {
Socket socket = null;
String host = "blog.csdn.net"; // host地址
Integer port = 443; // 这里用的是https协议,所以是443端口;如果是http协议要将它改成80端口
public void createSocket() {
try {
// 如果是http协议,直接new 一个Socket对象就行
// socket = new Socket(host, port