1.首先,先准备Jsoup.jar包
2.在你的项目里面添加Jsoup.jar的包。添加过程 在你的项目找到Build Path->Configure Build Path->Libraries->Add External JARS即可。
3.接下来就是运用这个包里面的类。
4.如果只是从网站里面爬取东西即运用里面的这些import
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import java.io.IOException;
public static void main(String[] args)throws IOException
在主函数加上throws后面这个以防爬取不了。
接下来先声明一个String类型用来存取网站链接
例如:String url = "http://www.en8848.com.cn/CET6/tl/mw100/132744.html";
接下来声明Document对象接收爬取网站信息
例如:Document document = Jsoup.connect(url).userAgent("").get();//userAgent()以浏览器模式进行访问改网站
String element = document.text();//获取网站信息
element这个即包含该页网站的所有信息用String类型存储
这个仅仅是我个人的见解,我现在也不太懂怎么对网站的主体爬取,上面的方法仅仅把网页的所有东西爬下来而已