网络爬虫项目开发日志(一):关于爬虫项目所涉及的领域知识

最近,公司刚刚开启了网络爬虫项目,对于这一陌生领域,我是好奇又惶恐,为了记录爬虫项目开发过程中的点滴,特立此系列微薄。


项目已经开启2个月,经过2个月的摸爬滚打,初步总结出了爬虫所涉及的知识领域,

1、爬虫机制

     我们项目大致把爬虫的整个过程做到模块化划分,采用的是开源的webmajic框架,先从负责爬取网页的downloader,到解析网页的processer,到持久化的pipeline

2、downloader

      a:selenium自动化测试

      b:http协议知识

      c:   URL 队列排序策略--》深度优先、广度优先

      d:分布式队列如何实现和管理

      e:反爬机制的破解

      f:OCR图片识别,用来破解校验码

3、processer

      a:xpath常用语法

      b:Ansj语义解析工具的使用

      c:Regular expression

5、pipeline

      a:我们的pipeline调用DAL层,用到Mybatis的ORM框架

      b:鉴于数据量巨大,我们采用shardbatis来做分表路由

6、大数据分析

      a:舆情分析,情感分析


技能树献上



下一篇会开始讲解爬虫架构的设计。





评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值