Java - 通过socket开发爬虫

本文介绍了使用Java通过socket开发爬虫的基础,强调了理解HTTP协议的重要性。提供了一本《HTTP武功秘籍》作为学习资源,并提醒初学者从反扒策略较弱的网站开始实践。此外,分享了一个在github上的爬虫项目。
摘要由CSDN通过智能技术生成

 

学习爬虫开发的前提是对http协议拥有足够的认识!

这里有一本《HTTP武功秘籍》,免费送给你!

前言:

有些网站的反扒策略非常狠,建议刚入手时选择一些没有反扒的网站!

 

 

上菜吧(这里的URL用例为CSDN的用户首页)



import java.io.ByteArrayOutputStream;
import java.io.IOException;
import java.io.InputStream;
import java.io.OutputStream;
import java.net.Socket;
import javax.net.ssl.SSLSocket;
import javax.net.ssl.SSLSocketFactory;

public class TestHttpClient {
    Socket socket = null;
	String host = "blog.csdn.net"; // host地址
	Integer port = 443; // 这里用的是https协议,所以是443端口;如果是http协议要将它改成80端口
    
    public void createSocket() {
        try {
			// 如果是http协议,直接new 一个Socket对象就行
            // socket = new Socket(host, port
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值