Python3.X Windows平台 安装BeautifulSoup4

1、安装BeautifulSoup4

打开cmd,运行pip install BeautifulSoup4

2、安装lxml

在Windows下,安装lxml费了一点劲儿,不能直接通过命令成功安装。
首先,查看我们的平台依赖的工具版本:

然后,去官网下载对应的.whl文件。官网地址:http://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml
Ctrl + F,输入lxml,找到下面这段:
Lxml, a binding for the libxml2 and libxslt libraries.
lxml‑3.7.3‑cp27‑cp27m‑win32.whl
lxml‑3.7.3‑cp27‑cp27m‑win_amd64.whl
lxml‑3.7.3‑cp34‑cp34m‑win32.whl
lxml‑3.7.3‑cp34‑cp34m‑win_amd64.whl
lxml‑3.7.3‑cp35‑cp35m‑win32.whl
lxml‑3.7.3‑cp35‑cp35m‑win_amd64.whl
lxml‑3.7.3‑cp36‑cp36m‑win32.whl
lxml‑3.7.3‑cp36‑cp36m‑win_amd64.whl
cp后面是Python的版本号,36表示3.6,根据你的Python版本选择下载。

最后进行安装,打开cmd,先运行pip install wheel 安装wheel工具,做好准备工作。
接着运行pip install *.whl文件,我的对应版本为lxml-3.7.3-cp36-cp36m-win_amd64.whl即可成功安装lxml解析器。

3、使用BeautifulSoup4
下面的 https://movie.douban.com/网址为豆瓣电影地址
所实现的功能是爬取页面所有电影的名字。
  1. #!/usr/bin/python
    # -*- coding: UTF-8 -*-
    from urllib.request import urlopen
    from bs4 importBeautifulSoup
    html= urlopen("https://movie.douban.com/")
    # 将html对象转化为BeautifulSoup对象
    bsObj= BeautifulSoup(html,"lxml")
    # 找到所有符合此class属性的li标签
    liList= bsObj.findAll("li",{"class":"title"})
    for li inliList:
    #获取标签<a>中文字
    name= li.a.get_text()
    print(name)

运行结果:


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值