爬取豆瓣电影top250只保留电影名的方法

最新推荐文章于 2021-07-05 20:08:30 发布

GNWCE

最新推荐文章于 2021-07-05 20:08:30 发布

阅读量724

点赞数

文章标签： python 正则表达式

本文链接：https://blog.csdn.net/qq_44684452/article/details/111714007

版权

在爬取豆瓣电影top250时，遇到提取电影名的问题，原始正则表达式会匹配到中文和英文名。解决方案包括后处理筛选或修改正则。尝试了非贪婪模式和特定正则，但效果不稳定，寻求正则表达式高手指导。爬虫的基本流程包括选择URL、分析URL规律、查看源代码、使用正则或解析库提取数据，并处理可能的反爬策略。

摘要由CSDN通过智能技术生成

在练手爬取电影资讯网站，遇到过这样一种情况：
使用正则表达式进行提取豆瓣的电影信息的时候，想要提取电影的名称，但是发现这个页面中还有英文的标签：
在这里插入图片描述

如果采用正则表达式
title_pattern =re.compile (r’(.+?)’)来匹配，会将所有中文和英文名字一起获取到
一种解决方法是通过获取完这些信息再进行筛选：

        for ss in title_list:
            if "&nbsp;/&nbsp;" in ss:
                title_list.remove(ss

最低0.47元/天解锁文章

GNWCE

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬取豆瓣电影top250只保留电影名的方法

在练手爬取电影资讯网站，遇到过这样一种情况：使用正则表达式进行提取豆瓣的电影信息的时候，想要提取电影的名称，但是发现这个页面中还有英文的标签：如果采用正则表达式title_pattern =re.compile (r’(.+?)’)来匹配，会将所有中文和英文名字一起获取到一种解决方法是通过获取完这些信息再进行筛选： for ss in title_list: if "&nbsp;/&nbsp;" in ss:
复制链接

扫一扫