python爬虫技术路线_golang学习笔记17 爬虫技术路线图，python，java，nodejs，go语言，scrapy主流框架介绍...

最新推荐文章于 2024-04-26 19:15:34 发布

ji fi

最新推荐文章于 2024-04-26 19:15:34 发布

阅读量223

点赞数

文章标签： python爬虫技术路线

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_29539581/article/details/113672670

版权

golang学习笔记17 爬虫技术路线图，python，java，nodejs，go语言，scrapy主流框架介绍

go语言爬虫框架：

gocolly/colly，goquery，colly，chromedp，webloop，go_spider，Pholcus

https://github.com/hu17889/go_spider

Pholcus 幽灵蛛重量级爬虫软件(含3种操作界面) - Golang中国

https://www.golangtc.com/p/557473c9b09ecc2aa700000b

henrylee2cn/pholcus_lib: 公共维护的Pholcus爬虫规则库

https://github.com/henrylee2cn/pholcus_lib

python，封装好的框架scrapy，其他常用，urllib2，解析用的包的beautifulsoup，配合selenium。以上是随便爬爬。

大型的分布式爬取，难点一个在反反爬，动态ip池，接打码，爬虫行为模式控制，是个体力活;

另一个在爬取和落盘的效率，所以到了一定规模分布式一般用go/java/scala多

用python的scrapy，所有平台都能跑，scrapy是主流方案，各种周边都很成熟，爬视频python有现成的包

python的pyspider框架比较完善，抓取大量网站，解析大量页面时做分布式和后台管理都比较方便

java爬虫配合jsoup也是不错的选择

nodejs主要框架有cheerio、crawler、spiderman：

用nodejs爬指定的少量网站，用request加cheerio就足够了

cheerio | Fast, flexible, and lean implementation of core jQuery designed specifically for the server.

https://cheerio.js.org/

crawler - npm

https://www.npmjs.com/package/crawler

ltebean/spiderman: a crawler with visualized config board

https://github.com/ltebean/spiderman

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python爬虫技术路线_golang学习笔记17 爬虫技术路线图，python，java，nodejs，go语言，scrapy主流框架介绍...

golang学习笔记17爬虫技术路线图，python，java，nodejs，go语言，scrapy主流框架介绍go语言爬虫框架：gocolly/colly，goquery，colly，chromedp，webloop，go_spider，Pholcushttps://github.com/hu17889/go_spiderPholcus 幽灵蛛重量级爬虫软件(含3种操作界面) - Golang...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。