爬虫demo
爬虫,同名公众号:JavaPub
JavaPub-rodert
技术&自媒体,专注于面试技巧,擅长Java、Go、MySQL、区块链
展开
-
Java爬虫实例20181009
下面这篇文章适合入门级看 参考博客:https://www.cnblogs.com/Jims2016/p/5877300.html 使用java爬取网页内容,并爬取指定字段 爬取地址: http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2015/index.html 环境:jsoup-1.8.1.jar 下载 ------jsoup参考...原创 2018-10-09 13:41:21 · 1995 阅读 · 3 评论 -
Java网络爬虫---多线程爬取百度图片(一)
源码地址在文章底部 代码来源于github某博主,单纯拿来学习有问题可以留言, 对代码中正则匹配有疑问,可以查看:https://blog.csdn.net/qq_40374604/article/details/83688449 package mainmethon; import httpbrowser.CreateUrl; import savefile.ImageFile; i...转载 2018-11-03 14:12:18 · 1474 阅读 · 0 评论 -
java使用jsoup,多线程批量爬取天极网某分类下的图片
小Demo转自csdn某作者, 本例子只作为测试,页面个数直接设置了100个,可以可能会少或者多,容易报错,更优化的一种方式是获取“下一页”按钮的地址,然后再访问,当访问不到“下一页”的内容时跳出 多线程只体现在文件提取,也可以在elements循环中再加一个多线程访问页面的 本案例需要jsoup包的支持,可到下方url下载 jsoup jar包 Test.java==========...原创 2018-11-02 15:49:35 · 719 阅读 · 0 评论 -
java爬虫(Jsoup)爬取某新闻站点标题
需要一个包:jsoup-1.7.3.jar 有一定的java和js基础 package wang.test; import java.io.IOException; import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select....原创 2018-11-02 13:55:01 · 2648 阅读 · 0 评论 -
人工智能(crawler)—— 爬虫综合
记录! 原地址:https://blog.csdn.net/qq_27297393/article/details/81630774 目录 内容简介 第一章 爬虫简介 1.1 什么是网络爬虫 1.1.1 爬虫的简单定义 1.1.2 爬虫的分类 1.2 为什么需要爬虫 1.2.1 爬虫的用途 1.2.2怎么做爬虫 第二章 爬虫的基本常识 2.1 爬虫的合法性问题 ...原创 2018-11-05 11:22:38 · 983 阅读 · 0 评论 -
Jsoup获取url所有链接
效果 直接上代码 package wang.test; import org.jsoup.Jsoup; import org.jsoup.helper.Validate; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select.Elements; ...原创 2018-11-13 15:53:57 · 3451 阅读 · 0 评论 -
代理Ip池构建及使用
构建ip池:https://github.com/jhao104/proxy_pool java代理ip:https://mcj8089.iteye.com/blog/2196941 大量代理地址:https://www.xicidaili.com/wn/转载 2019-01-16 15:23:16 · 1006 阅读 · 2 评论