初识Java爬虫

最新推荐文章于 2024-10-01 20:02:09 发布

赖在床上的小

最新推荐文章于 2024-10-01 20:02:09 发布

阅读量121

点赞数

分类专栏： Java 文章标签：爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_37618461/article/details/106794049

版权

Java 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

难点分析

网站采取反爬策略

解决方式：模拟浏览器

网站模板定期变动

解决方案：不同配置文件配置不同网站的模板规则
数据库存储不同网站的模板规则

网站URL抓取失败

解决方案HttpClient 默认处理方式
Storm 实时解析失败日志，将失败URL重新加入抓取仓库，一般超过三次就放弃

网站频繁抓取IP被封

解决方案：购买代理IP库，随机获取IP抓取数据。
部署多个应用分别抓取，降低单节点频繁访问
设置每个页面抓取时间间隙，降低被封概率。

总体架构解析

在这里插入图片描述

数据流向

在这里插入图片描述

模块划分

在这里插入图片描述

各模块解读

数据采集模块
在这里插入图片描述

下载：HttpClient
解析：1）HTMLCleaner+Xpath 2) Jsoup 3) 正则表达式
接入：1）直接存储数据库 2）存储到HDFS

数据分析
一个MR一个jar
所有MR打包成为一个jar
提供启动脚本或者托管给job调度平台
报表前台

前台：Jquery + HightChart
后台：查询服务
存储：Hbase数据库/MySQL数据库

数据监控与管理
在这里插入图片描述

监控： Ganglia、Zookeeper
运行维护：邮件提醒
URL调度： Redis优先级队列

技术选型

采集
1. HttpClient
2. HTMLCleaner
3. Xpath
4. 正则表达式
存储
1. HBase
2. Redis
处理
1. solr/es
展示
1. SpringMVC
2. freemarker
3. Jquery+HightChart

部署方案

爬虫项目：多台服务器
网站爬虫分类URL定时项目：一台服务器
Hbase数据库：集群
Solr服务器：集群
Redis服务器：集群
爬虫监控项目:一台服务器
Web项目：多台服务器
Zookeeper服务器：集群

在这里插入图片描述

赖在床上的小

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。