网络爬虫
文章平均质量分 65
一个爱浪费时间的人
一头会咬人的狮子并不可怕,可怕的是这头狮子懂得隐忍
展开
-
网络爬虫入门(三)-Cookie登录
一.Cookie的概念学过javaweb应该对cookie不陌生Cookie是浏览器存储存储用户信息的一小段文本,它保存了用户的ID等信息,这些信息可以被服务器端识别,并作为标识用户的手段,以此来判定用户是不是第一次访问Cookie是当你浏览某网站时,网站存储在你机器上的一个小文本文件,它记录了你的用户ID,密码、浏览过的网页、停留的时间等信息,当你再次来到该网站时,网站通过读取Cooki...原创 2018-10-13 18:52:43 · 367 阅读 · 0 评论 -
网络爬虫入门(一)-HttpClient使用入门
一.网络爬虫1.概述网络爬虫也叫做网络机器人,可以代替人们自动地在互联网中进行数据信息的采集与整理从功能上来讲,爬虫一般分为数据采集,处理,储存三个部分既然是网络爬虫,自然离不开Http协议Http协议的重要性相信不用我多说了,HttpClient相比传统JDK自带的URLConnection,增加了易用性和灵活性2.HttpClientHttpClient有两个,分别是org...原创 2018-09-28 21:43:46 · 808 阅读 · 0 评论 -
网络爬虫入门(二)-Jsoup解析
一.Jsoup介绍一般来说我们对爬取的网页解析有两种方法一种方法就是正则另一种方法就是Jsoup解析jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据所需要的jar包.二.Jsoup输入从URL加载文档使用Jsoup.connect(...原创 2018-10-09 17:21:21 · 1182 阅读 · 0 评论