一步一步学网络爬虫（从python到scrapy）

最新推荐文章于 2024-07-07 22:25:52 发布

sunnyxiaohu

最新推荐文章于 2024-07-07 22:25:52 发布

阅读量3.5w

点赞数 15

分类专栏：爬虫-scrapy 文章标签： python 网络爬虫 scrapy scrapy入门

本文链接：https://blog.csdn.net/sunnyxiaohu/article/details/50787430

版权

本文记录了一位作者学习网络爬虫的过程，重点介绍了使用Python和Scrapy框架爬取网页、处理编码问题及基础的模拟登陆。通过参考多个在线资源，包括runoob、CSDN博客和Scrapy官方文档，作者提供了学习路径和关键知识点，如Python基础、网络爬虫概念、Scrapy安装与实践、多网页爬取、中文输出、图片下载和模拟登陆。虽然文中未深入探讨JS渲染和验证码识别，但提到了相关分析方法和资源。

摘要由CSDN通过智能技术生成

大概花了一个星期的时间，学习了一下网络爬虫的知识，现在使用scrapy能爬一些基本的网页，图片，解决网页编码兼容问题，基础的模拟登陆。对于有些模拟登陆，由于其提交的表单要经过js进行处理后提交；更难的其网页也是经js渲染的，要学会一步步去分析，没有太多的去深入，但我会提到基本的分析方法。
参考文章：
1、http://www.runoob.com/ 一个很好的语言语法入门学习的网站，我主要用其学习了python的语法。
2、http://blog.csdn.net/column/details/why-bug.html 此博客讲了一些网络爬虫的基础知识，包括http,url等，而且一步步讲解了实现爬虫的整个过程。
3、http://doc.scrapy.org/en/latest/intro/tutorial.html scrapy框架的学习教程，从安装讲到应用到常见问题，是个不可多得的参考手册，至少过一遍，对于想深入研究的同学，一定要多看几遍。
4、http://blog.csdn.net/u012150179/article/details/34486677 对于中文输出与保存，实现多网页的爬取，做了实现。
5、http://www.jianshu.com/p/b7f41df6202d
http://www.jianshu.com/p/36a39ea71bfd
对于怎么实现模拟登陆做了较好的解释和实现，当然由于技术的不断更新和动态变化，网站的反爬虫的技术也在不断更新，具体情况，应具体分析。

下面正式进入学习：
环境：ubuntu14.04
一、python
1、python的下载和安装：https://www.python.org/downloads/ 在链接中找到自己需要的版本，记得在研究中基本不用version>3.0的版本，然而有为了支持一些新的功能，基本上version>2.70 and version<3.0是一个比较合适的选择。由于ubuntu14.04的底层有些使用python实现的，所以都带了python,(python2.74的版本或者其它）如果需要不同的版本可在不删除原有版本的基础上下载新版本，并修改软链接即可。ln -s python pythonx.xx中间若有问题，请自行百度解决。
2、python的基础知识学习。熟悉一下基本的语法，重点关注列表，元组，字典，函数和类。其它的若有问题，再返回去学习吧，学习链接在参考中已给出，练习一下，一两天就差不多能搞定了。

二、网络爬虫的基础知识
1、网络爬虫的定义、浏览网页的过程、URI和URL的概念和举例、URL的理解和举例。
2、正则表达式
自己练习一下，如果记不住了看看下面的表。
这里写图片描述

三、scrapy
1、scrapy的安装
http://doc.scrapy.org/en/latest/intro/install.html 根据你自己应用的平台进行选择。比较简单，不做过多的解释。
2、一个scrapy例子
http://doc.scrapy.org/en/latest/intro/tutorial.html 有几点要注意一下：一是知道如何去调试，二是xpath()和css()，还有要学会使用firebox和firebug分析网页源码和表单提交情况，

最低0.47元/天解锁文章

sunnyxiaohu

关注

15
点赞
踩
78

收藏

觉得还不错? 一键收藏
3
评论
一步一步学网络爬虫（从python到scrapy）

大概花了一个星期的时间，学习了一下网络爬虫的知识，现在使用scrapy能爬一些基本的网页，图片，解决网页编码兼容问题，基础的模拟登陆。对于有些模拟登陆，由于其提交的表单要经过js进行处理后提交；更难的其网页也是经js渲染的，要学会一步步去分析，没有太多的去深入，但我会提到基本的分析方法。参考文章： 1、http://www.runoob.com/ 一个很好的语言语法入门学习的网站，我主要用其
复制链接

扫一扫

专栏目录