在今天就主要学习了一些关于Python网络爬虫的基础知识.
关于BeautifulSoup及urllib的一些常用函数
注:一般在开头会加上如下代码
from bs4 import BeautifulSoup
from urllib.request import urlopen
此上是Python3.x 的代码,如果是Python2.x如下
from bs4 import BeautifulSoup
from urllib import urlopen
- urllib.request.urlopen (name):别看找了三层才到它,但它在一个网络爬虫中有着重要的位置,参数name主要是网址.传递这个参数,urlopen()函数会自动打开并读取网站HTML内容(总之,我一直是这么认为的,但好像没错,例如如下代码)
html = urlopen("https://www.baidu.com")
- bs4.BeautifulSoup(html, parser):这可以用来实例化BeautifulSoup; 参数html是提供网络HTML内容, parser是你所选用的解析器(一般用Python内置解析器"html.parser"就可以啦)
bs = BeautifulSoup(html.read(), "html.parser")
注:
- read()函数其实可有可无,在这里是读取文本,当然,没有read()我试过,确实也可以
2.此处实例化了 BeautifulSoup