python爬虫入门练习：BeautifulSoup爬取猫眼电影TOP100排行榜，pandas保存本地excel文件

最新推荐文章于 2020-07-06 11:44:14 发布

Shuo.Lee

最新推荐文章于 2020-07-06 11:44:14 发布

阅读量1.3k

点赞数 2

分类专栏： Python爬虫文章标签： python 爬虫猫眼电影 BeautifulSoup pandas

本文链接：https://blog.csdn.net/weixin_39600286/article/details/95534848

版权

传送门：【python爬虫入门练习】正则表达式爬取猫眼电影TOP100排行榜，openpyxl保存本地excel文件
对于上文使用的正则表达式匹配网页内容，的确是有些许麻烦，替换出现任何的差错都会导致匹配不上的情况，本文将介绍一种更简便更流行的匹配方式：beautifulsoup
首先，安装beautifulsoup：pip install beautifulsoup4
其次，python是自带标准解析器的，但是更建议使用执行速度更快，文档容错能力强的lxml，安装：pip install lxml
导入方法：from bs4 import Beautifulsoup4
同样的我们先拿到网页源代码
在这里插入图片描述
在<dd></dd>中间，直接通过目标信息的标签来定位，相同的标签，通过加属性条件来区分：

from bs4 import BeautifulSoup

data = []
def page(text):
	soup = BeautifulSoup(text, 'lxml')
    for s in soup.find_all('dd'):
        datalist = {
   '排名': s.find('i').get_text(), '电影名称': s.find('p', class_="name").get_text(),
                    '主演': s.find('p', class_

最低0.47元/天解锁文章

Shuo.Lee

关注

2
点赞
踩
6

收藏

觉得还不错? 一键收藏
2
评论
python爬虫入门练习：BeautifulSoup爬取猫眼电影TOP100排行榜，pandas保存本地excel文件

传送门：【python爬虫入门练习】正则表达式爬取猫眼电影TOP100排行榜，openpyxl保存本地excel文件对于上文使用的正则表达式匹配网页内容，的确是有些许麻烦，替换出现任何的差错都会导致匹配不上的情况，本文将介绍一种更简便更流行的匹配方式：beautifulsoup首先，安装beautifulsoup：pip install beautifulsoup4其次，python是自带标...
复制链接

扫一扫