网络爬虫,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。
爬虫主要应对的问题:1.http请求 2.解析html源码 3.应对反爬机制。
主要步骤:
1、按照教程下载python、配置环境变量,学习使用pip命令、安装开发ide:pycharm
2、学习使用python发送请求获取页面
3、使用chrome开发者工具观察页面结构特征,使用beautifulsoup解析页面
4、保存页面到本地文件
遇到的主要问题:
1.python基本语法:变量、函数、循环、异常、条件语句、创建目录、写文件。可以参考《Python基础教程》
2.python缩进很重要,缩进决定语句分组和层次,在循环的时候尤其看清楚。
3.编码格式:从代码编辑、到网页内容、中文文件名,无处不有编码格式的问题。可以参考 《Python编码问题整理》
5.抓取规则失效,重新分析失效页面,重新选择页面特征。
实践,用爬虫获取网页上的试题(自动抓取下一页)代码:
#encoding=utf8#设置编辑源py文件的编码格式为utf8
importrequests, sys, chardet, os, time, random, timefrom bs4 importBeautifulSoup
reload(sys)#必须要重新加载
sys.setdefaultencoding("utf8")print sys.getdefaultencoding(), sys.getfilesystemencoding() #utf8 mbcs:MBCS(Multi-ByteChactacterSystem,即多字节字符系统)它是编码的一种类型,而不是某个特定编码的名称</