python爬虫技术路线_golang学习笔记17 爬虫技术路线图,python,java,nodejs,go语言,scrapy主流框架介绍...

golang学习笔记17 爬虫技术路线图,python,java,nodejs,go语言,scrapy主流框架介绍

go语言爬虫框架:

gocolly/colly,goquery,colly,chromedp,webloop,go_spider,Pholcus

https://github.com/hu17889/go_spider

Pholcus 幽灵蛛重量级爬虫软件(含3种操作界面) - Golang中国

https://www.golangtc.com/p/557473c9b09ecc2aa700000b

henrylee2cn/pholcus_lib: 公共维护的Pholcus爬虫规则库

https://github.com/henrylee2cn/pholcus_lib

4f032d088c514cce3ce0fbfec902ab8d.png

python,封装好的框架scrapy,其他常用,urllib2,解析用的包的beautifulsoup,配合selenium。以上是随便爬爬。

大型的分布式爬取,难点一个在反反爬,动态ip池,接打码,爬虫行为模式控制,是个体力活;

另一个在爬取和落盘的效率,所以到了一定规模分布式一般用go/java/scala多

用python的scrapy,所有平台都能跑,scrapy是主流方案,各种周边都很成熟,爬视频python有现成的包

python的pyspider框架比较完善,抓取大量网站,解析大量页面时做分布式和后台管理都比较方便

java爬虫配合jsoup也是不错的选择

nodejs主要框架有cheerio、crawler、spiderman:

用nodejs爬指定的少量网站,用request加cheerio就足够了

cheerio | Fast, flexible, and lean implementation of core jQuery designed specifically for the server.

https://cheerio.js.org/

crawler - npm

https://www.npmjs.com/package/crawler

ltebean/spiderman: a crawler with visualized config board

https://github.com/ltebean/spiderman

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值