python网络爬虫学习笔记（1）爬虫概述安装 Python基础_下列哪项表示禁止爬取abc文件夹下的文件?(-CSDN博客

本文链接：https://blog.csdn.net/user_987654321/article/details/93630405

本文是Python网络爬虫学习笔记的第一部分，介绍了爬虫的基本概念、Robots协议，以及Python环境的搭建，包括Anaconda的使用、第三方库的安装和Python基础语法的简述。

摘要由CSDN通过智能技术生成

网络爬虫学习笔记（1）

《Python网络爬虫从入门到实践》唐松，陈志铨。主要面向windows平台下的python3。

（约2016年）网络爬虫个人使用和科研范畴基本不存在问题，但商业盈利范畴就要看对方了。
通过网站的Robots协议（爬虫协议）可以知道可以和不可以抓取的内容，例如淘宝的[link]https://www.taobao.com/robots.txt。其中User-Agent: 为允许的url，Allow:为允许的内容，Disallow: 为不允许。Disallow: /为禁止抓取允许以外的内容。 Disallow: /abc 表示禁止访问收录abc.php、abc.html和abc文件夹下的所有文件。 Disallow: /abc/ 表示仅禁止访问abc文件夹下的所有文件，但是不限制abc.php、abc.html文件。
爬取的时候要遵循Robots协议，约束网络爬虫程序速度；使用数据时必须遵守网站的知识产权。
爬虫流程：1）获取网站，2）解析网页（提取数据），3）存储数据。
4-1）获取网站——基础技术：request、urllib、selenium（模拟浏览器）；进阶技术：多进程多线程抓取、登陆抓取、突破IP封禁、服务器抓取。
4-2）解析网页——基础技术：re正则表达式、BeautiSoup、lxml
；进阶技术：解决中文乱码。
4-3）存储数据——基础技术：txt文件、csv文件；进阶技术：MySQl、MongoDB。

安装Anaconda来一键安装python编码环境。利用pip(window进cmd，Mac进terminal）安装bs4、request、lxml等第三方库。

 pip install bs4
 pip install request
 pip install lxml