1.# -- coding: utf-8 -这是用来说明你的Python源程序文件用使用的编码。缺省情况下你的程序需要使用ascii码来写,但如果在其中写中文的话,python解释器一般会报错,但如果加上你所用的文件编码,python就会自动处理不再报错。
上述格式还可以写成:
coding=utf-8
或
coding:utf-8
2.爬虫的基本架构
其中
URL管理器用来管理已爬和待爬的URL;
网页下载器接收URL后,进行网页下载;
网页解析器对于下载后的网页进行提取信息。
3.BeautifulSoup的简单使用
创建soup对象->搜索节点find_all(所有结点)、find(一个结点)->访问节点(名称,属性(href),文字)
ps:BeautifulSoup(html_doc,’html.parser’,from_encoding=’utf-8’)