一步一步学网络爬虫（从python到scrapy）_[x['path'] for ok,x in resert if ok]-CSDN博客

本文链接：https://blog.csdn.net/sunnyxiaohu/article/details/50787430

本文记录了一位作者学习网络爬虫的过程，重点介绍了使用Python和Scrapy框架爬取网页、处理编码问题及基础的模拟登陆。通过参考多个在线资源，包括runoob、CSDN博客和Scrapy官方文档，作者提供了学习路径和关键知识点，如Python基础、网络爬虫概念、Scrapy安装与实践、多网页爬取、中文输出、图片下载和模拟登陆。虽然文中未深入探讨JS渲染和验证码识别，但提到了相关分析方法和资源。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

大概花了一个星期的时间，学习了一下网络爬虫的知识，现在使用scrapy能爬一些基本的网页，图片，解决网页编码兼容问题，基础的模拟登陆。对于有些模拟登陆，由于其提交的表单要经过js进行处理后提交；更难的其网页也是经js渲染的，要学会一步步去分析，没有太多的去深入，但我会提到基本的分析方法。
参考文章：
1、http://www.runoob.com/ 一个很好的语言语法入门学习的网站，我主要用其学习了python的语法。
2、http://blog.csdn.net/column/details/why-bug.html 此博客讲了一些网络爬虫的基础知识，包括http,url等，而且一步步讲解了实现爬虫的整个过程。
3、http://doc.scrapy.org/en/latest/intro/tutorial.html scrapy框架的学习教程，从安装讲到应用到常见问题，是个不可多得的参考手册，至少过一遍，对于想深入研究的同学，一定要多看几遍。
4、http://blog.csdn.net/u012150179/article/details/34486677 对于中文输出与保存，实现多网页的爬取，做了实现。
5、http://www.jianshu.com/p/b7f41df6202d
http://www.jianshu.com/p/36a39ea71bfd
对于怎么实现模拟登陆做了较好的解释和实现，当然由于技术的不断更新和动态变化，网站的反爬虫的技术也在不断更新，具体情况，应具体分析。

下面正式进入学习：
环境：ubuntu14.04
一、python
1、python的下载和安装：https://www.python.org/downloads/ 在链接中找到自己需要的版本，记得在研究中基本不用version>3.0的版本，然而有为了支持一些新的功能，基本上version>2.70 and version<3.0是一个比较合适的选择。由于ubuntu14.04的底层有些使用python实现的，所以都带了python,(python2.74的版本或者其它）如果需要不同的版本可在不删除原有版本的基础上下载新版本，并修改软链接即可。ln -s python pythonx.xx中间若有问题，请自行百度解决。
2、python的基础知识学习。熟悉一下基本的语法，重点关注列表，元组，字典，函数和类。其它的若有问题，再返回去学习吧，学习链接在参考中已给出，练习一下，一两天就差不多能搞定了。

二、网络爬虫的基础知识
1、网络爬虫的定义、浏览网页的过程、URI和URL的概念和举例、URL的理解和举例。
2、正则表达式
自己练习一下，如果记不住了看看下面的表。
这里写图片描述

三、scrapy
1、scrapy的安装
http://doc.scrapy.org/en/latest/intro/install.html 根据你自己应用的平台进行选择。比较简单，不做过多的解释。
2、一个scrapy例子
http://doc.scrapy.org/en/latest/intro/tutorial.html 有几点要注意一下：一是知道如何去调试，二是xpath()和css()，还有要学会使用firebox和firebug分析网页源码和表单提交情况，看到前面，我们基本能实现单网页的爬取。
3、讲讲scrapy框架
对scrapy的框架和运行有一个具体的思路之后我们才能更好的了解爬虫的整个情况，尤其是出了问题之后的调试
http://blo