github上优秀的python项目_GitHub上有哪些优秀的爬虫项目?

1

写在前面的话

今天JAP君给大家安利一波福利!GitHub上优秀的爬虫项目大集合!!!大家赶快收藏一波!

2

福利开始喽!

1. Anti-Anti-Spider

地址:https://github.com/luyishisi/Anti-Anti-Spider

很全面的反爬虫项目大全:

1:验证码 {亚马逊验证码破解,knn,svm,Tensorflow自动生成验证码并大量训练从而破解--98%成功率}

2:代理 {抓取西刺代理,以及一个高可用的国外代理网站,并存入数据库,从而随时调用}

3:代码模板 {多线程优化,百度地图可视化采集,聚焦爬虫,selenium模拟登陆,域名爬虫}

5:爬虫项目源码 {优酷网,腾讯视频,推特,拉钩网,百度地图,妹子图网,百家号,百度百科,csdn,新浪微博, 淘宝采集}

6:ip更换技术 {代理,tor,adsl}

7:请求伪造 {phantomjs,requests,selenium}

8:phantomjs {伪造请求头,获取页面截图,获取页面源码,设置超时}

9:selenium {伪造请求头,支付宝模拟登陆}

10:UrlSpider {项目中常用的采集代码样本,经过多线程数据库操作优化,最高速度6kw/d}

2. awesome-spider

网址:https://github.com/facert/awesome-spider

这是一个id为facert的知乎工程师开源的项目,目前见过最详细最多的爬虫案例大全了,真的值得大家去学习一波!

3. Nyspider

网址:https://github.com/Nyloner/Nyspider

这是ID为Nyloner的一个今日头条的工程师弄的,star1000+,风格与上面的项目大有不同。

可以看出,都是各类网址,和本人的工作有关。

4. awesome-python-login-model

网址://github.com/CriseLYJ/awesome-python-login-model

这是ID为CriseLYJ(职业不详)的用户,这个项目用于模拟各种网址登陆,也包含一些简单的爬虫,star6000+。

5. python-spider

网址:https://github.com/Jack-Cherish/python-spider

这是ID为Jack-Cherish的东北大学的一个学生整理的学习python爬虫的资料,star6000+,包含不少的实战项目,非常适合想学习的朋友。

6. Google,Baidu,Bing三大搜素引擎图片爬虫

网址:https://github.com/sczhengyabin/Image-Downloader

这个爬虫足够满足小型项目初始数据集的积累,结果命名也非常整齐规范,最大的优点是稳定。

3

END

想要更快的提升自己的爬虫技术,单单把基本的知识学完是远远不够的,而是要多去实战,这些案例非常的优秀,大家都可以按照他们的写法去写一遍,这样更有利于大家爬虫技术的提升!

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值