Java爬虫，信息抓取的实现，腾讯T3大牛手把手教你

最新推荐文章于 2024-05-01 23:05:09 发布

2301_78398209

最新推荐文章于 2024-05-01 23:05:09 发布

阅读量971

点赞数 19

分类专栏： 2024年程序员学习文章标签： java 爬虫开发语言

本文链接：https://blog.csdn.net/2301_78398209/article/details/137218308

版权

2024年程序员学习专栏收录该内容

262 篇文章 2 订阅

订阅专栏

public final static int ID = 1;

public final static int SELECTION = 2;

public Rule()

{

}

public Rule(String url, String[] params, String[] values,

String resultTagName, int type, int requestMoethod)

{

super();

this.url = url;

this.params = params;

this.values = values;

this.resultTagName = resultTagName;

this.type = type;

this.requestMoethod = requestMoethod;

}

public String getUrl()

{

return url;

}

public void setUrl(String url)

{

this.url = url;

}

public String[] getParams()

{

return params;

}

public void setParams(String[] params)

{

this.params = params;

}

public String[] getValues()

{

return values;

}

public void setValues(String[] values)

{

this.values = values;

}

public String getResultTagName()

{

return resultTagName;

}

public void setResultTagName(String resultTagName)

{

this.resultTagName = resultTagName;

}

public int getType()

{

return type;

}

public void setType(int type)

{

this.type = type;

}

public int getRequestMoethod()

{

return requestMoethod;

}

public void setRequestMoethod(int requestMoethod)

{

this.requestMoethod = requestMoethod;

}

简单说一下：这个规则类定义了我们查询过程中需要的所有信息，方便我们的扩展，以及代码的重用，我们不可能针对每个需要抓取的网站写一套代码。

2、需要的数据对象，目前只需要链接，LinkTypeData.java

package com.zhy.spider.bean;

public class LinkTypeData

{

private int id;

/**

链接的地址

private String linkHref;

/**

链接的标题

private String linkText;

/**

摘要

private String summary;

/**

内容

private String content;

public int getId()

{

return id;

}

public void setId(int id)

{

this.id = id;

}

public String getLinkHref()

{

return linkHref;

}

public void setLinkHref(String linkHref)

{

this.linkHref = linkHref;

}

public String getLinkText()

{

return linkText;

}

public void setLinkText(String linkText)

{

this.linkText = linkText;

}

public String getSummary()

{

return summary;

}

public void setSummary(String summary)

{

this.summary = summary;

}

public String getContent()

{

return content;

}

public void setContent(String content)

{

this.content = content;

}

3、核心的查询类：ExtractService.java

package com.zhy.spider.core;

import java.io.IOException;

import java.util.ArrayList;

import java.util.List;

import java.util.Map;

import javax.swing.plaf.TextUI;

import org.jsoup.Connection;

import org.jsoup.Jsoup;

import org.jsoup.nodes.Document;

import org.jsoup.nodes.Element;

import org.jsoup.select.Elements;

import com.zhy.spider.bean.LinkTypeData;

import com.zhy.spider.rule.Rule;

import com.zhy.spider.rule.RuleException;

import com.zhy.spider.util.TextUtil;

/**

@author zhy

public class ExtractService

{

/**

@param rule
@return

public static List extract(Rule rule)

{

// 进行对rule的必要校验

validateRule(rule);

List datas = new ArrayList();

LinkTypeData data = null;

try

{

/**

解析rule

String url = rule.getUrl();

String[] params = rule.getParams();

String[] values = rule.getValues();

String resultTagName = rule.getResultTagName();

int type = rule.getType();

int requestType = rule.getRequestMoethod();

Connection conn = Jsoup.connect(url);

// 设置查询参数

if (params != null)

{

for (int i = 0; i < params.length; i++)

{

conn.data(params[i], values[i]);

}

// 设置请求类型

Document doc = null;

switch (requestType)

{

case Rule.GET:

doc = conn.timeout(100000).get();

break;

case Rule.POST:

doc = conn.timeout(100000).post();

break;

}

//处理返回数据

Elements results = new Elements();

switch (type)

{

case Rule.CLASS:

results = doc.getElementsByClass(resultTagName);

break;

case Rule.ID:

Element result = doc.getElementById(resultTagName);

results.add(result);

break;

case Rule.SELECTION:

results = doc.select(resultTagName);

break;

default:

//当resultTagName为空时默认去body标签

if (TextUtil.isEmpty(resultTagName))

{

results = doc.getElementsByTag(“body”);

}

for (Element result : results)

{

Elements links = result.getElementsByTag(“a”);

for (Element link : links)

{

//必要的筛选

String linkHref = link.attr(“href”);

String linkText = link.text();

data = new LinkTypeData();

data.setLinkHref(linkHref);

data.setLinkText(linkText);

datas.add(data);

}

} catch (IOException e)

{

e.printStackTrace();

}

return datas;

}

/**

对传入的参数进行必要的校验

private static void validateRule(Rule rule)

{

String url = rule.getUrl();

if (TextUtil.isEmpty(url))

{

throw new RuleException(“url不能为空！”);

}

if (!url.startsWith(“http://”))

{

throw new RuleException(“url的格式不正确！”);

}

if (rule.getParams() != null && rule.getValues() != null)

{

if (rule.getParams().length != rule.getValues().length)

{

throw new RuleException(“参数的键值对个数不匹配！”);

}

4、里面用了一个异常类：RuleException.java

package com.zhy.spider.rule;

public class RuleException extends RuntimeException

{

public RuleException()

{

super();

// TODO Auto-generated constructor stub

}

public RuleException(String message, Throwable cause)

{

super(message, cause);

// TODO Auto-generated constructor stub

}

public RuleException(String message)

{

super(message);

// TODO Auto-generated constructor stub

}

自我介绍一下，小编13年上海交大毕业，曾经在小公司待过，也去过华为、OPPO等大厂，18年进入阿里一直到现在。

深知大多数Python工程师，想要提升技能，往往是自己摸索成长或者是报班学习，但对于培训机构动则几千的学费，着实压力不小。自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年Python开发全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友，同时减轻大家的负担。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，基本涵盖了95%以上Python开发知识点，真正体系化！

由于文件比较大，这里只是将部分目录大纲截图出来，每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频，并且后续会持续更新

如果你觉得这些内容对你有帮助，可以添加V获取：vip1024c （备注Python）

最后

Python崛起并且风靡，因为优点多、应用领域广、被大牛们认可。学习 Python 门槛很低，但它的晋级路线很多，通过它你能进入机器学习、数据挖掘、大数据，CS等更加高级的领域。Python可以做网络应用，可以做科学计算，数据分析，可以做网络爬虫，可以做机器学习、自然语言处理、可以写游戏、可以做桌面应用…Python可以做的很多，你需要学好基础，再选择明确的方向。这里给大家分享一份全套的 Python 学习资料，给那些想学习 Python 的小伙伴们一点帮助！

👉Python所有方向的学习路线👈

Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。

👉Python必备开发工具👈

工欲善其事必先利其器。学习Python常用的开发软件都在这里了，给大家节省了很多时间。

👉Python全套学习视频👈

我们在看视频学习的时候，不能光动眼动脑不动手，比较科学的学习方法是在理解之后运用它们，这时候练手项目就很适合了。

👉实战案例👈

学python就与学数学一样，是不能只看书不做题的，直接看步骤和答案会让人误以为自己全都掌握了，但是碰到生题的时候还是会一筹莫展。

因此在学习python的过程中一定要记得多动手写代码，教程只需要看一两遍即可。

👉大厂面试真题👈

我们学习Python必然是为了找到高薪的工作，下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料，并且有阿里大佬给出了权威的解答，刷完这一套面试资料相信大家都能找到满意的工作。

工欲善其事必先利其器。学习Python常用的开发软件都在这里了，给大家节省了很多时间。

👉Python全套学习视频👈

我们在看视频学习的时候，不能光动眼动脑不动手，比较科学的学习方法是在理解之后运用它们，这时候练手项目就很适合了。

👉实战案例👈

学python就与学数学一样，是不能只看书不做题的，直接看步骤和答案会让人误以为自己全都掌握了，但是碰到生题的时候还是会一筹莫展。

因此在学习python的过程中一定要记得多动手写代码，教程只需要看一两遍即可。

👉大厂面试真题👈

2301_78398209

关注

19
点赞
踩
26

收藏

觉得还不错? 一键收藏
0
评论
Java爬虫，信息抓取的实现，腾讯T3大牛手把手教你

Python崛起并且风靡，因为优点多、应用领域广、被大牛们认可。学习 Python 门槛很低，但它的晋级路线很多，通过它你能进入机器学习、数据挖掘、大数据，CS等更加高级的领域。Python可以做网络应用，可以做科学计算，数据分析，可以做网络爬虫，可以做机器学习、自然语言处理、可以写游戏、可以做桌面应用…Python可以做的很多，你需要学好基础，再选择明确的方向。这里给大家分享一份全套的 Python 学习资料，给那些想学习 Python 的小伙伴们一点帮助！
复制链接

扫一扫