BeautifulSoup简介
Beautiful Soup4是python的一个库,最主要的功能是从网页抓取数据
Beautiful Soup4,有了它我们可以很方便地提取出HTML或XML标签中的内容
Beautiful soup库是解析,遍历,维护“标签树”的功能库
BeautifulSoup安装
一、 BeautifulSoup4 ——bs4安装
方法一:
bs4的安装需要将pip源设置为国内pip源,具体方法如下:
在百度搜索:pip国内镜像
在MS-DOS环境中安装第三方模块方法
pip install 模块名 -i http://pypi.douban.com/simple/ --trusted-host pypi.douban.com
在pycharm中安装第三方模块方法
file —settings—project 项目名—project interpreter——“+”—搜索模块名—install package
备注:pycharm中修改为国内源方法
在available package中选择manage repositories
方法二:windows下修改
1.打开项目文件夹
2.在地址栏输入 %appdata%
3.打开后新建文件夹pip并打开该文件夹
4.新建pip.ini文件并将以下代码写入:
【global】
timeout = 6000
index-url=http://pypi.douban.com/simple/ #国内源
trusted-host=mirrors.douban.com
安装lxml,这是一个解析器,BeautifulSoup可以使用它来解析HTML,然后提取内容。
代码为 ----