Python爬虫urllib之猫眼电影正则

最新推荐文章于 2024-06-25 23:49:22 发布

冥想10分钟大师

最新推荐文章于 2024-06-25 23:49:22 发布

阅读量305

点赞数

分类专栏： urllib 文章标签：爬虫

本文链接：https://blog.csdn.net/qq_31235811/article/details/88770868

版权

urllib 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

猫眼电影

 '''
利用正则爬取猫眼电影
-url:http://maoyan.com/board
-把电影信息拿下来
分析
-一个电影信息在dd的单元内
-找到每一个dd，用re按个查找需要的信息
'''
#1 把网页信息爬取下来
from urllib import request
url = 'http://maoyan.com/board'

rsp = request.urlopen(url)
html = rsp.read().decode()
with open("asp.html", "w",encoding='utf-8')as f:
    f.write(html)
# print(html)

#2 找到每个dd单元
import re

s = r'<dd>(.*?)</dd>'
pattern = re.compile(s, re.S)
films = pattern.findall(html)
print（len（films））＃3提取出dd单元中需要的电影中的电影信息：    ＃提取电影名字    s = r'<a。*？title =“（。*？）”'     pattern = re.compile （s）    title = pattern.findall（film）[0]     print（title）```

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

冥想10分钟大师

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Python爬虫urllib之猫眼电影正则

猫眼电影 '''利用正则爬取猫眼电影-url:http://maoyan.com/board-把电影信息拿下来分析-一个电影信息在dd的单元内-找到每一个dd，用re按个查找需要的信息'''#1 把网页信息爬取下来from urllib import requesturl = 'http://maoyan.com/board'rsp = request.urlopen(u...
复制链接

扫一扫