python网络爬虫学习笔记(1)爬虫概述 安装 Python基础

本文是Python网络爬虫学习笔记的第一部分,介绍了爬虫的基本概念、Robots协议,以及Python环境的搭建,包括Anaconda的使用、第三方库的安装和Python基础语法的简述。
摘要由CSDN通过智能技术生成

网络爬虫学习笔记(1)

1 资料

《Python网络爬虫从入门到实践》唐松,陈志铨。主要面向windows平台下的python3。

2 笔记

2-1 爬虫概述

  1. (约2016年)网络爬虫个人使用和科研范畴基本不存在问题,但商业盈利范畴就要看对方了。
  2. 通过网站的Robots协议(爬虫协议)可以知道可以和不可以抓取的内容,例如淘宝的[link]https://www.taobao.com/robots.txt。其中User-Agent: 为允许的url,Allow:为允许的内容,Disallow: 为不允许。Disallow: /为禁止抓取允许以外的内容。 Disallow: /abc 表示禁止访问收录abc.php、abc.html和abc文件夹下的所有文件。 Disallow: /abc/ 表示仅禁止访问abc文件夹下的所有文件,但是不限制abc.php、abc.html文件。
  3. 爬取的时候要遵循Robots协议,约束网络爬虫程序速度;使用数据时必须遵守网站的知识产权。
  4. 爬虫流程:1)获取网站,2)解析网页(提取数据),3)存储数据。
  5. 4-1)获取网站——基础技术:request、urllib、selenium(模拟浏览器);进阶技术:多进程多线程抓取、登陆抓取、突破IP封禁、服务器抓取。
  6. 4-2)解析网页——基础技术:re正则表达式、BeautiSoup、lxml
  7. ;进阶技术:解决中文乱码。
  8. 4-3)存储数据——基础技术:txt文件、csv文件;进阶技术:MySQl、MongoDB。

2-2 安装

  1. 安装Anaconda来一键安装python编码环境。利用pip(window进cmd,Mac进terminal)安装bs4、request、lxml等第三方库。
 pip install bs4
 pip install request
 pip install lxml
  1. 编译器Jupyter(其他还有Notepad
  • 2
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值