![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
徐川江的个人博客
这个作者很懒,什么都没留下…
展开
-
爬虫基础之URI访问网站获取HTML
GET方式import java.io.InputStream;import java.net.HttpURLConnection;import java.net.URL;public class JDKGet { public static void main(String[] args) throws Exception { //1.创建URL对象 ...原创 2018-10-11 16:23:33 · 2227 阅读 · 0 评论 -
爬虫基础之HttpClient访问网站
HttpClient坐标<dependency><groupId>org.apache.httpcomponents</groupId><artifactId>httpclient</artifactId><version>4.5.3</version></dependency&原创 2018-10-11 16:27:09 · 1918 阅读 · 0 评论 -
爬虫基础之Jsoup解析HTML
Jsoup的Maven坐标<dependency><groupId>org.jsoup</groupId><artifactId>jsoup</artifactId><version>1.7.2</version></dependency>Jsoup解析HTM原创 2018-10-11 16:40:35 · 2373 阅读 · 0 评论 -
爬虫基础之Jsoup使用select选择器
前言:Jsoup可以解析HTML得到Document文档对象,通常我们需要爬取的内容是文档中的某些东西而不是整个HTML内容,这时就需要使用select选择器来提取我们需要的内容,select选择器的使用类似于jquery的使用方式。注意:下面爬取的是a标签的内容,这个根据爬取的网站的升级变更而不准确。import org.apache.http.client.methods.Close...原创 2018-10-11 16:48:26 · 3653 阅读 · 0 评论 -
爬虫之爬取新闻案例
选择163新闻网站的某一篇新闻https://news.163.com/18/0920/13/DS5ARO3R0001899O.html进行爬取。如果新闻已不存在则读者参考文章另选新闻。import com.xucj.jsoup.Httpclientutil;import org.jsoup.Jsoup;import org.jsoup.nodes.Document;import ...原创 2018-10-11 16:54:15 · 3402 阅读 · 0 评论 -
爬虫之爬取起点热门小说并保存到本地
前言:案例中用到的Httpclientutil工具类请参考上一篇文章https://blog.csdn.net/qq_15076569/article/details/83015044import com.xucj.jsoup.Httpclientutil;import org.jsoup.Jsoup;import org.jsoup.nodes.Document;import o...原创 2018-10-11 16:58:51 · 3913 阅读 · 0 评论 -
爬虫之爬取JD商品
前言:案例搜索JD官网内存条信息:https://search.jd.com/searchkeyword=8g%E5%86%85%E5%AD%98%E6%9D%A1%20ddr4&enc=utf-8&qrst=1&rt=1&stop=1&vt=2&suggest=2.def.0.V07&wq=8G&uc=0#J_searchWra...原创 2018-10-11 17:11:09 · 2373 阅读 · 0 评论 -
爬虫之多线程爬取智联招聘信息
前言:本文爬取对象为智联搜索大数据岗位内容信息,并将信息保存到本地。案例中使用的HttpClientUtils工具类参考上一篇文章https://blog.csdn.net/qq_15076569/article/details/83015273案例中使用的Dao层请参考上一篇文章https://blog.csdn.net/qq_15076569/article/details/830...原创 2018-10-11 17:26:39 · 3192 阅读 · 0 评论