1、安装BeautifulSoup4
打开cmd,运行pip install BeautifulSoup4
2、安装lxml
在Windows下,安装lxml费了一点劲儿,不能直接通过命令成功安装。
首先,查看我们的平台依赖的工具版本:
然后,去官网下载对应的.whl文件。官网地址:http://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml
Ctrl + F,输入lxml,找到下面这段:
Lxml, a binding for the libxml2 and libxslt libraries.
lxml‑3.7.3‑cp27‑cp27m‑win32.whl
lxml‑3.7.3‑cp27‑cp27m‑win_amd64.whl
lxml‑3.7.3‑cp34‑cp34m‑win32.whl
lxml‑3.7.3‑cp34‑cp34m‑win_amd64.whl
lxml‑3.7.3‑cp35‑cp35m‑win32.whl
lxml‑3.7.3‑cp35‑cp35m‑win_amd64.whl
lxml‑3.7.3‑cp36‑cp36m‑win32.whl
lxml‑3.7.3‑cp36‑cp36m‑win_amd64.whl
cp后面是Python的版本号,36表示3.6,根据你的Python版本选择下载。
最后进行安装,打开cmd,先运行pip install wheel 安装wheel工具,做好准备工作。
接着运行pip install *.whl文件,我的对应版本为lxml-3.7.3-cp36-cp36m-win_amd64.whl即可成功安装lxml解析器。
3、使用BeautifulSoup4
#!/usr/bin/python # -*- coding: UTF-8 -*- from urllib.request import urlopen from bs4 importBeautifulSoup html= urlopen("https://movie.douban.com/") # 将html对象转化为BeautifulSoup对象 bsObj= BeautifulSoup(html,"lxml") # 找到所有符合此class属性的li标签 liList= bsObj.findAll("li",{"class":"title"}) for li inliList: #获取标签<a>中文字 name= li.a.get_text() print(name)
运行结果: