Python3.X Windows平台安装BeautifulSoup4

最新推荐文章于 2024-08-06 23:23:32 发布

lyl_1204

最新推荐文章于 2024-08-06 23:23:32 发布

阅读量1.9k

点赞数

分类专栏： python 文章标签： python 爬虫

本文链接：https://blog.csdn.net/u013305747/article/details/74177849

版权

python 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

1、安装BeautifulSoup4

打开cmd，运行pip install BeautifulSoup4

2、安装lxml

在Windows下，安装lxml费了一点劲儿，不能直接通过命令成功安装。
首先，查看我们的平台依赖的工具版本：

然后，去官网下载对应的.whl文件。官网地址：http://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml
Ctrl + F，输入lxml，找到下面这段：
Lxml, a binding for the libxml2 and libxslt libraries.
lxml‑3.7.3‑cp27‑cp27m‑win32.whl
lxml‑3.7.3‑cp27‑cp27m‑win_amd64.whl
lxml‑3.7.3‑cp34‑cp34m‑win32.whl
lxml‑3.7.3‑cp34‑cp34m‑win_amd64.whl
lxml‑3.7.3‑cp35‑cp35m‑win32.whl
lxml‑3.7.3‑cp35‑cp35m‑win_amd64.whl
lxml‑3.7.3‑cp36‑cp36m‑win32.whl
lxml‑3.7.3‑cp36‑cp36m‑win_amd64.whl
cp后面是Python的版本号，36表示3.6，根据你的Python版本选择下载。

最后进行安装，打开cmd，先运行pip install wheel 安装wheel工具，做好准备工作。
接着运行pip install *.whl文件，我的对应版本为lxml-3.7.3-cp36-cp36m-win_amd64.whl即可成功安装lxml解析器。

3、使用BeautifulSoup4

下面的 https://movie.douban.com/网址为豆瓣电影地址
所实现的功能是爬取页面所有电影的名字。

#!/usr/bin/python
# -*- coding: UTF-8 -*-
from urllib.request import urlopen
from bs4 importBeautifulSoup
html= urlopen("https://movie.douban.com/")
# 将html对象转化为BeautifulSoup对象
bsObj= BeautifulSoup(html,"lxml")
# 找到所有符合此class属性的li标签
liList= bsObj.findAll("li",{"class":"title"})
for li inliList:
#获取标签<a>中文字
name= li.a.get_text()
print(name)

运行结果：