在前言:
最近后台有人留言问:有没有python爬虫的相关教程,爬虫不是我专业方向,很多不是很熟悉,而网上很多资料讲的过于散乱,不能很好的系统性学习爬虫,而且水平参差不齐。特委托一位熟悉爬虫的小伙伴,帮忙把关,将网上现有资料进行整合,整理了一份相对比较系统的资料。小伙伴感兴趣可以自取~
此外,我这还有两本比较经典的python爬虫电子书,在微信公众号【轮子工厂】后台回复 ”爬虫” 可以领取。
进入正题:
对于入门的小伙伴,首先需要解决四个问题:
熟悉Python编程;
了解HTML;
了解网络爬虫的基本原理;
学习使用Python爬虫库.
若不知道自己是否满足入门条件,也没关系,这儿有份资料:
https://www.zhihu.com/ question/20899988/answer/783269460
小伙伴可以据此进行一下自我判断、或简单入门,emm…培养一下爬虫兴趣也是很棒的!!
https://www. runoob.com/w3cnote/python-spider-intro.html。
循序渐进教程篇:
来源:https://cuiqingcai.com/1052.html
说明:本来下面每一个标题都是一个可以直接点击的超链接,但是公众号的文章里面不能插入外部链接,现在大家只能看到文字,并不能点击跳转。所以我把这篇文章同步更新到知乎上去了,在知乎上可以直接点击标题跳转到相应的文章。大家翻到文末,点击左下角“阅读原文”就可以找到知乎上的这篇内容了。
本文一共整理了126篇爬虫相关的文章,大家可以通过这个目录系统的学习爬虫,也可以收藏起来,当做字典查询。建议先点击“阅读原文”,打开知乎上的这篇文章,然后再收藏。
一、爬虫入门
Python爬虫入门一之综述
Python爬虫入门二之爬虫基础了解
Python爬虫入门三之Urllib库的基本使用
Python爬虫入门四之Urllib库的高级用法
Python爬虫入门五之URLError异常处理
Python爬虫入门六之Cookie的使用
Python爬虫入门七之正则表达式
二、爬虫实战
Python爬虫实战一之爬取糗事百科段子
Python爬虫实战二之爬取百度贴吧帖子
Python爬虫实战三之实现山东大学无线网络掉线自动重连
Python爬虫实战四之抓取淘宝MM照片
Python爬虫实战五之模拟登录淘宝并获取所有订单
Python爬虫实战六之抓取爱问知识人问题并保存至数据库
Python爬虫实战七之计算大学本学期绩点
Python爬虫实战八之利用Selenium抓取淘宝匿名旺旺
本来三、爬虫利器
Python爬虫利器一之Requests库的用法
Python爬虫利器二之Beautiful Soup的用法
Python爬虫利器三之Xpath语法与lxml库的用法
Python爬虫利器四之PhantomJS的用法
Python爬虫利器五之Selenium的用法
Python爬虫利器六之PyQuery的用法
四、爬虫进阶
Python爬虫进阶一之爬虫框架概述
Python爬虫进阶二之PySpider框架安装配置
Python爬虫进阶三之爬虫框架Scrapy安装配置
Python爬虫进阶四之PySpider的用法
Python爬虫进阶五之多线程的用法
Python爬虫进阶六之多进程的用法
Python爬虫进阶七之设置ADSL拨号服务器代理
高端段位实战篇:
来源:https://zhuanlan.zhihu.com/p/73742321
Python 岗位分析报告
Selenium介绍
抖音App视频抓包
Bilibili 用户
Bilibili 视频
Bilibili 小视频
Bing美图爬虫
B站760万视频信息爬虫
博客园(node.js)
百度百科(node.js)
北邮人水木清华招聘
百度云网盘
琉璃神社爬虫
Boss 直聘
贝壳网找房爬虫
暗网爬虫(Go)
豆瓣读书
豆瓣爬虫集
豆瓣害羞组
豆瓣图书广度爬取
DNS记录和子域名
DHT网络磁力种子爬虫
抖音
爱丝APP图片爬虫
京东
京东搜索+评论
京东商品+评论
机票
煎蛋妹纸
煎蛋妹纸selenium版本
今日头条,网易,腾讯等新闻
计算机书籍控图书
QQ空间
QQ 群
清华大学网络学堂爬虫
去哪儿
前程无忧Python招聘岗位信息爬取分析
soundcloud
Stackoverflow 100万问答爬虫
Shadowsocks 账号爬虫
spider163 网易云音乐爬虫
时光网电影数据和海报爬虫
tumblr
下载tumblr喜欢内容
TuShare
天猫双12爬虫
Taobao mm
Tmall 女性文胸尺码爬虫
淘宝直播弹幕爬虫(node)
天涯论坛文章
天眼查爬虫
乌云公开漏洞
微信公众号
“代理”方式抓取微信公众号文章
网易新闻
网易精彩评论
微博主题搜索分析
网易云音乐
新.网易热评
唯品会商品
ZOL 手机壁纸爬虫
知乎(python)
知乎(php)
知网
知乎妹子
自如实时房源提醒
中国大陆高校列表爬虫
游戏直播行业真的如你想象般暴利?
五一不看人人人人人人,哪儿耍合适?
大碗宽面 VS 律师函警告,情感分析吴亦凡自黑式圈粉!
没经验没学历的外教为啥能拿1.4W+的高薪?
大胆,都是哪些程序员在反对996?!
儿科医生的眼泪,全被数据看见了
用大数据扒一扒蔡徐坤的真假流量粉
北上广深租房图鉴
六万条数据全面解析,城市春节禁放烟花爆竹真的有用吗?
十万条评论告诉你,给《流浪地球》评1星的都是什么心态?
开年表情包局部富有指南,盘它!
看完这篇分析,楼下的Tony和Kevin都改名了!
回复“实习僧”CTO之换种姿势爬取实习僧网站
【20G】Kaggle数据集强势分析“绝地求生”,攻略吃鸡!
50行代码教你打造一个公众号文章采集器
《我是大侦探》到底怎么了?(上:数据爬取篇)
《我是大侦探》到底怎么了?(下:情感分析篇)
帮了个小忙|破解“实习僧”网站字体加密
“小忙”连载篇|实习僧网站数据分析
Facebook模拟登录
微博网页版模拟登录
知乎模拟登录
QQZone模拟登录
CSDN模拟登录–已恢复
淘宝爬虫–重构中
Baidu模拟登录一
果壳爬虫程序
JingDong 模拟登录和自动申请京东试用
163mail–已恢复
拉钩模拟登录–已失效
Bilibili模拟登录
附录:
Python网络爬虫知识架构
出处见水印
点击左下角“阅读原文”可以找到文中整理的100多篇爬虫相关的文章。