第一章 网络爬虫之前奏
●网络爬虫课程内容导学
- 爬虫基本要求:掌握定向网络数据肥取和网页解析的基本能力
- 主要部分:
1、Requests:自动爬取HTML页面,自动网络请求提交;
2、robots. txt:网络爬虫排除标准;
3、Beautiful Soup:解析HTML页面,框架解析、提取相关信息;
4、Re:正则表达式详解,提取页面局部关键信息;
5、Scrapy*:专业网络爬虫框架。
● Python语言开发工具选择
- 定义:IDE(集成开发环境,Integrated Development Environment )是用于提供程序开发环境的应用程序,一般包括代码编辑器、编译器、调试器和图形用户界面等工具。
- 常用的 Python IDE工具:
1、文本工具类IDE:IDLE、Notepad++、Sublime Text、Vim& Emacs、Atom和 Komodo Edit;
2、集成工具类IDE:PyCharm、Wing、PyDev &Eclipse、Visual Studio、Anaconda&Spyder、Canopy。 - 主流Python IDE工具介绍:
ID工具 特点 适用环境 IDLE Python自带、默认、常用的开发工具,分为交互式和文件式 适用于Python入门,功能简单直接,300+代码以内 Sublime Text 专为程序员开发的第散方专用编程工具 专业编程体验,多种编程风格 Wing 调试功能丰富,版本控制,版本同步 适合多人共同开发,大型项目应用普遍 Visual Studio Win环境为主,调试功能丰富 习惯Win开发环境 Eclipse 开源IDE开发工具,提供很多自定义功能 需要有一定开发环境 PyCharm 简单,集成度高 适合较复杂工程 Canopy 工具收费,支持近500个第三方库 适合科学计算领域应用开发 Anaconda 开源免费,支持近800个第三方库 适合科学计算领域应用开发