Java爬虫
geekfly
知识改变命运
展开
-
Jsoup解析网页源码时常用的Element(s)类
一、简介该类是Node的直接子类,同样实现了可克隆接口。类声明:public class Element extends Node它表示由一个标签名,多个属性和子节点组成的html元素。从这个元素中,你可以提取数据,可以遍历节点树,可以操纵html。 二、构造方法1、public Element(Tag tag, String baseUri, Attrib转载 2015-10-12 17:11:14 · 3096 阅读 · 0 评论 -
Java数据采集--1.准备工作
前言:自从2014年4月大一开始接触Java,7月开始接触网络爬虫至今已经两年的时间,共抓取非同类型网站150余个,其中包括一些超大型网站,比如百度文库,亚马逊,魔方格,学科网等。也在学长五年经验留下来的代码的基础上,整合成一个小型的爬虫框架,主要用于抓取期刊之类的数据型网站,包括元数据抓取和文件下载。在此感谢曾经给我指导方向,帮助我学习的学长们。关于本系列博文:主要基于Java语言,使用Jsoup原创 2016-03-16 16:34:59 · 5404 阅读 · 3 评论 -
Java数据采集-7.Ajax无刷新请求(翻页-3)
本篇继上述博客,介绍Ajax无刷新加载数据的方式,抓取阿里巴巴矢量图库。 技术重点:HttpClient 模拟请求FastJson 处理Json格式的数据原创 2017-08-14 21:45:26 · 1255 阅读 · 0 评论 -
Java数据采集-6.获取开源中国新闻列表(翻页-2)
> 本次抓取地址:https://www.oschina.net/news> 项目源码:https://github.com/geekfly2016/Spider> 代码目录:Spider/src/xyz/geekfly/get_list/OSCHINA_NEWS.java原创 2017-07-25 21:12:40 · 1881 阅读 · 0 评论 -
Java数据采集-3.抓取开源中国新闻(新版)
最近看之前写的几篇网页数据采集的博客,陆陆续续的有好友发私信交流,又想重新整理一下这些了,抽空继续更新本系列博客。针对开源中国新闻列表新版,重新写代码抓取。 网址:https://www.oschina.net/news jar包:jsoup.1.7.2.jar 项目源码:https://github.com/geekfly2016/Spider分析新闻列表所在位置根据上图我们可原创 2017-07-19 21:14:19 · 3216 阅读 · 0 评论 -
Java数据采集-4.分析常见的翻页(加载数据)方式
本篇文章主要分析当下常见的几种翻页(加载数据)的方式,并结合实际例子和截图介绍。在后续博客中针对这些网站,写代码完成数据抓取。1. 根据页码进行翻页 如CSDN的个人博客列表,我们可以轻松的分析出总页数和列表页地址。 共两页,列表页地址为:http://blog.csdn.net/TMaskBoy/article/list/2 对于此类型的网页,我们只需要根据总页数,遍历所有的列表页即可,原创 2017-07-20 20:15:25 · 1859 阅读 · 2 评论 -
Java数据采集-5.获取CSDN个人博客列表(翻页-1)
本博客继上篇,针对第一种翻页加载数据的方式,编写实际代码演示。 因第三讲以详细介绍如何解析各个节点,之后教程不在详细截图说明分析过程,可根据我使用的css规则,自行对比分析。废话不多说,开始撸代码。模拟Url请求,获取节点String url = "http://blog.csdn.net/TMaskBoy/article/list/1";Document document = Jsou原创 2017-07-20 21:32:02 · 871 阅读 · 0 评论 -
Java数据采集--2.使用Jsoup抓取开源中国
本节使用Jsoup获取网页源码,并且解析数据。 使用JSoup 解析网页,语法使用 JS,css,Jquery 选择器语法,方便易懂 抓取网站:http://www.oschina.net/news/list 开源中国-新闻资讯模块 基本工作: 1.创建好Java工程,包等基本工作。 2.导入Jsoup所依赖的jar包。官网下载地址如下: http://jsoup.org/package原创 2016-03-16 19:58:27 · 5277 阅读 · 3 评论 -
Jsoup选择器选择的class有多个属性的写法
jsoup选择多个class原创 2015-11-22 12:39:54 · 5564 阅读 · 0 评论 -
Java数据采集-8.模拟登录
模拟登录一般分为以下几步:> 1. 获取登录的所需的信息> 2. 模拟提交账号信息,获取Cookie> 3. 携带Cookie进行目标操作原创 2017-10-15 17:14:10 · 1525 阅读 · 9 评论