原理:httpRequest-->新闻服务器--DOM文档-->爬虫应用--DOM解析--数据库
网络爬虫之DOM解析:Document--Element--Elements
jsoup:html解析器;导入jsoup-1.6.3.jar
网络爬虫的步骤:
//1 网络请求 请求URL
//2 得到DOM文档
Document document = Jsoup.connect("URL").get();
//3 解析DOM文档
//编写元素选择器 类似于jQuery选择器
String selector="div[class=login]";//类选择器
//属性选择器:元素类型[attr=value]
//多级选择器:元素1类型[attr=value]>元素2类型[attr=value]
//ID选择器:#id
//选择元素
Elements elements = document.select(selector);
for(Element element : elements ){
System.out.println(element.text());
}