学习Python爬虫 - 初识爬虫

先弄清楚自己为什么要学习爬虫知识?- 基于专业版数据的特性,对业务数据进行测试分析,检验数据的准确性和有效性。

对于零基础的小白,可以分为3个阶段来实现:

--第一阶段:入门。 掌握必备的基础知识,如python基础、网络请求的基本原理

--第二阶段:模仿。看着别人的爬虫代码,弄懂,了解主流爬虫工具

--第三阶段:自己动手,根据自己的解题思路,独立设计爬虫系统


知识储备

  1. python基础:基本语法,函数、类、list、dict等常用方法和类型

  2. HTML知识

  3. HTTP知识:爬虫的基本原理就是通过网络请求从远程服务器上下载数据的过程,所以需要了解http协议的基本原理

  4. 网络请求模块类库:(python自带)urllib、urllib2、httplib、Cookie,requests等

  5. 数据处理:

    • JSON数据:使用json;

    • HTML数据:可以使用BeautifulSoup、lxml等库处理;

    • XML数据:untangle、xmltodict等第三方库;

  6. 爬虫工具:Chrome或者Firefox的审查元素、跟踪请求信息等

  7. 数据清洗:正则表达式,re模块

  8. 持久化存储:

    • 文件存储:csv文件,txt文件

    • 数据库存储:sqlite、Mysql、MongoDB

  9. 攻克反爬虫策略:通常网站会设置有阻止爬数据的方式,如必须登录、输入验证码、对请求速度做限制、对ip做限制、对数据加密处理等,所以此时就要求理解常见的加解密算法,http中的cookie、HTTP代理、各种HEADER等等

 。。。


总之,学习爬虫是循序渐进的过程



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值