爬虫学习之路 - 开篇

简介

理论上来说,任何支持网络通信的语言都是可以写爬虫的,爬虫本身虽然语言关系不大,。但是,总有相对顺手、简单的。

目前来说,大多数爬虫是用后台脚本类语言写的,其中python无疑是用的最多最广的,并且页诞生了很多优秀的库和框架,如scrapy、BeautifulSoup 、pyquery、Mechanize等。

但是一般来说,搜索引擎的爬虫对爬虫的效率要求更高,会选用c++、java、go(适合高并发),因为我们的目标不是搜索引擎,因此我选用python来学些爬虫。

学习之路如下可以参考下面的步骤

基础:

  1. 了解爬虫
  2. 学习Python基本语法,并熟练使用
  3. 学习Python中关于爬虫的几个重要的内置库:urllib/http/Cookie等
  4. 学习正则表达式,beautifulsoup等解析网页的工具或包
  5. 利用上几步学习的至少爬取比较简单的网站,比如一些应用市场等等,不需要登陆
  6. 利用大型的框架爬取数据,例如PySpider等

高级:

  1. 学习利用工具分析网页请求流程、学习模拟登陆,拿新浪微博、知乎等需要登陆的网站进行练习
  2. 学习Python中关于多线程、多进程的东西,将以前写的代码改为多线程版本,提高效率
  3. 学习Python中的爬虫框架,或者自己写一个爬虫框架。 更高级的,还有验证码识别、js动态请求、js执行、代理IP等等。

接下来介绍其中实践过的几项

了解爬虫

爬虫简单的理解:通过程序模拟人操作网络发送请求,获取数据返回,清洗,筛选,整理出有用的数据,结构化保存数据,方便数据的浏览,计算,可视化,最终实现数字的描述型价值与预测型价值

把下面三篇文章读完,就有基本的概念了:

技术准备:Python基础

python 基础是学习python爬虫不可少的,python基础学习资源:

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值