python 爬虫豆瓣电影（TEXT文章）

路奇怪

已于 2023-10-18 16:00:24 修改

阅读量630

点赞数

分类专栏： python 文章标签： python

于 2019-07-26 08:57:33 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_31565379/article/details/97367300

版权

python 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

import requests
from lxml import etree

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.67 Safari/537.36',
    'Referer': 'https://movie.douban.com/cinema/nowplaying/beijing/'
}

url = 'https://movie.douban.com/cinema/nowplaying/beijing/'
response = requests.get(url, headers=headers)
text = response.text

html = etree.HTML(text)


# nodename    选取此节点的所有子节点。
# /           从根节点选取。
# //          从匹配选择的当前节点选择文档中的节点，而不考虑它们的位置。
# .           选取当前节点。
# ..          选取当前节点的父节点。
# @           选取属性。
# 获取正在上映的电影
ul = html.xpath("//ul[@class='lists']")[0]     # //title[@lang]	选取所有拥有名为 lang 的属性的 title 元素。
lis = ul.xpath("./li")
movies = []

# 获取电影标示
for li in lis:
    title = li.xpath("@data-title")[0]
    score = li.xpath("@data-score")[0]
    duration = li.xpath("@data-duration")[0]
    region = li.xpath("@data-region")[0]
    director = li.xpath("@data-director")[0]
    actors = li.xpath("@data-actors")[0]

    # dianying haibao photo
    thumbnail = li.xpath(".//img/@src")[0]

    movie = {
        "title" : title,
        'score' : score,
        'duration' :duration,
        "region":region,
        'director':director,
        'actors':actors
    }
    movies.append(movie)
    print(movie)

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

路奇怪 CSDN认证博客专家 CSDN认证企业博客

码龄9年

131: 原创

1万+: 周排名

1万+: 总排名

14万+: 访问

: 等级

2206: 积分

2705: 粉丝

306: 获赞

55: 评论

585: 收藏

私信

关注

热门文章

分类专栏

开源 7篇
C++基础 31篇
音视频入门 5篇
OpenCV学习 1篇
Quick QML 3篇
QML Book 5篇
Visual Studio 8篇
MFC 10篇
QT基础 44篇
充电 2篇
C#基础 9篇
CAD开发 1篇
提问 4篇
数据库 1篇
python 7篇
vscode 2篇

最新评论

关于Qt QPushbutton 图标与字体间距处理办法
C++_Rookie: 方法确实挺好用。但是对于QPushButton设置样式设置setStyleSheet()，left-padding之类的参数设置好像不起作用了（试了一下hover和pressed的样式）。
2. 音视频H264
路奇怪: 差不多这个意思
2. 音视频H264
Eeeeell: 收到感谢目前用浏览器的网络监测功能能看到在某一个时间点来回读取数据导致视频卡死流量使用也远超视频大小经过微信发送保存下来的原视频则没有这个问题也可以顺畅播放目前初步判断是由于编码问题导致也跟播放器的解码功能相关因为我们平台没有二压请问博主我这样理解不知道是否正确
2. 音视频H264
路奇怪: 1.你网页跟安卓没问题，在苹果上播放卡，可能是编码兼容问题 2.音视频时间戳不对也有可能，但这通常会导致音画不同步而非单纯的卡顿。不过，极端情况下，严重的时间戳错误也可能干扰解码流程，引起播放不流畅。
2. 音视频H264
Eeeeell: 您好博主请问一下如果我上传到某个平台的视频用苹果手机看在同一个时间全都卡住了用网页和安卓就没问题是视频中音视频的时间戳不对还是上传之后解码有问题才会导致卡顿

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

路奇怪 有钱出钱，没钱多出编程主意啊

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。