目标网站分析

我们小组的目标是微调一个可以根据用户提供的个人喜好,来预测他的观影体验的大模型。因此我们的训练数据不仅需要短评的内容,还需要撰写短评的用户的喜好。这里的喜好数据可以通过爬取用户主页中的“广播”内容来获取,因为其中包含了用户对看过的电影的评分,只要筛选出用户给出高评分的电影即可获知用户的喜好。

大致的目标有两类,一个是电影短评,一个是短评用户的“广播”中对看过的电影的评分。

对于每条电影短评,需要爬取短评的文本内容和对应的用户主页的url,从而合成用户“广播”页面的url。

这里使用xpath进行数据抽取。可以观察到,电影名“肖申克的救赎”就在id为“content”的div节点中;每一个短评都在class为comment-item的节点中,xpath选取所有短评;分析短评的源代码可以发现,用户主页的url存在“comment-info”的a节点中,评论存在class为“short”的span节点中。

在用户广播页面,由于我需要爬取到用户喜爱的电影,因此筛选出标签为“看过”且用户对其的评分在四分及以上的电影,并爬取电影的名称,例如这个“少年派的奇幻漂流”。

观察每条“广播”的源代码可以发现,它存在“new-status stutus-wrapper”的div节点中,使用xpath对上述提到的条件进行筛选和爬取:titles = response.xpath("//div[contains(@class, 'new-status status-wrapper') and .//div[contains(@class, 'text') and contains(., '看过')] and .//span[contains(@class, 'rating-stars') and (contains(text(), '★★★★☆') or contains(text(), '★★★★★'))]]//div[@class='title']/a/text()")

  • 8
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值