爬虫学习之路 - 开篇

最新推荐文章于 2023-02-08 16:54:44 发布

vivianking68

最新推荐文章于 2023-02-08 16:54:44 发布

阅读量612

点赞数

分类专栏： Python BigData 文章标签： Python BigData

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/vivian_king/article/details/79493859

版权

简介

理论上来说，任何支持网络通信的语言都是可以写爬虫的，爬虫本身虽然语言关系不大，。但是，总有相对顺手、简单的。

目前来说，大多数爬虫是用后台脚本类语言写的，其中python无疑是用的最多最广的，并且页诞生了很多优秀的库和框架，如scrapy、BeautifulSoup 、pyquery、Mechanize等。

但是一般来说，搜索引擎的爬虫对爬虫的效率要求更高，会选用c++、java、go(适合高并发)，因为我们的目标不是搜索引擎，因此我选用python来学些爬虫。

学习之路如下可以参考下面的步骤

基础：

了解爬虫
学习Python基本语法，并熟练使用
学习Python中关于爬虫的几个重要的内置库：urllib/http/Cookie等
学习正则表达式，beautifulsoup等解析网页的工具或包
利用上几步学习的至少爬取比较简单的网站，比如一些应用市场等等，不需要登陆
利用大型的框架爬取数据，例如PySpider等

高级：

学习利用工具分析网页请求流程、学习模拟登陆，拿新浪微博、知乎等需要登陆的网站进行练习
学习Python中关于多线程、多进程的东西，将以前写的代码改为多线程版本，提高效率
学习Python中的爬虫框架，或者自己写一个爬虫框架。更高级的，还有验证码识别、js动态请求、js执行、代理IP等等。

接下来介绍其中实践过的几项

了解爬虫

爬虫简单的理解：通过程序模拟人操作网络发送请求，获取数据返回，清洗，筛选，整理出有用的数据，结构化保存数据，方便数据的浏览，计算，可视化，最终实现数字的描述型价值与预测型价值

把下面三篇文章读完，就有基本的概念了：

技术准备：Python基础

python 基础是学习python爬虫不可少的,python基础学习资源：

Blog：廖雪峰的官方网站
视频：python 视频下载，python 视频在线

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬虫学习之路 - 开篇

简介理论上来说，任何支持网络通信的语言都是可以写爬虫的，爬虫本身虽然语言关系不大，。但是，总有相对顺手、简单的。目前来说，大多数爬虫是用后台脚本类语言写的，其中python无疑是用的最多最广的，并且页诞生了很多优秀的库和框架，如scrapy、BeautifulSoup 、pyquery、Mechanize等。但是一般来说，搜索引擎的爬虫对爬虫的效率要求更高，会选用c++、java、go...
复制链接

扫一扫

专栏目录

vivianking68 CSDN认证博客专家 CSDN认证企业博客

码龄16年

153: 原创

13万+: 周排名

109万+: 总排名

15万+: 访问

: 等级

2855: 积分

46: 粉丝

47: 获赞

10: 评论

179: 收藏

私信

关注

热门文章

分类专栏

Android知识体系 24篇
Android性能优化
Android 58篇
性能优化 11篇
管理 7篇
源码解析 9篇
设计模式 4篇
Python 9篇
BigData 10篇
AI
Java 6篇
ReactNative 25篇
Web 11篇
PHP 5篇
算法 2篇
GO 6篇

最新评论

Linux 设置短密码 and hostname
早已胸有成竹: 虽然提示无效的密码，但是继续输入要改的密码可以改成功
Linux 设置短密码 and hostname
北极星6号: 实测有效
Android中常用的几种加密
Tisfy: 真棒！就像：天山雪后海风寒，横笛偏吹行路难。
舆情分析 - 入门
呵呵哒哒8: 舆情分析要对新闻或者内容进行内容分析，或者是那个关键的话题，请问这个怎么做呢？
舆情分析 - 入门
心态炸了呀: 感谢大大，加油继续更新！

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。