python爬取豆瓣榜单，附加代码，一键爬取

最新推荐文章于 2024-04-13 07:32:59 发布

码上游

最新推荐文章于 2024-04-13 07:32:59 发布

阅读量1.2k

点赞数

文章标签： python pycharm 开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/pakerder/article/details/122814215

版权

爬取效果如下：

使用工具：
Python 3.9

pycharm

爬虫的一般思路：

1.拿到页面源代码 requests

2.通过re正则来提取想要的有效信息 re

3.csv 是存储格式,方便数据分析

#拿到页面源代码  requests
#通过re正则来提取想要的有效信息  re
#csv 是存储格式,方便数据分析
import requests
import re
import csv

url = "https://movie.douban.com/top250?start=1"
headers = {
    "User-agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.71 Safari/537.36 Edg/97.0.1072.62"
}
resp = requests.get(url , headers=headers)
yuandaima = resp.text
#解析数据
obj = re.compile(r'<li>.*?<div class="item">.*? <span class="title">(?P<name>.*?)</span>'
                 r'.*?<p class="">.*?<br>(?P<year>.*?)&nbsp'
                 r'.*?<span class="rating_num" property="v:average">(?P<fen>.*?)</span>'
                 r'.*?<span>(?P<num>.*?)人评价</span>',re.S)
#开始匹配
result = obj.finditer(yuandaima)
f = open("data.csv", mode="w")
csvwriter = csv.writer(f)
for it in result:
    #print(it.group("name"))
    #print(it.group("year").strip()) #strip是把前面的空行空格取消掉
    #print(it.group("fen"))
    #print(it.group("num"))
    dic = it.groupdict()
    dic['year'] = dic['year'].strip()
    csvwriter.writerow(dic.values())

f.close()
print("over!")

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
打赏
0
评论
python爬取豆瓣榜单，附加代码，一键爬取

爬取效果如下：使用工具：Python 3.9pycharm爬虫的一般思路：1.拿到页面源代码 requests2.通过re正则来提取想要的有效信息 re3.csv 是存储格式,方便数据分析#拿到页面源代码 requests#通过re正则来提取想要的有效信息 re#csv 是存储格式,方便数据分析import requestsimport reimport csvurl = "https://movie.douban.com/top250?start=1"
复制链接

扫一扫

码上游 CSDN认证博客专家 CSDN认证企业博客

码龄3年

152: 原创

1万+: 周排名

95万+: 总排名

22万+: 访问

: 等级

1879: 积分

2363: 粉丝

230: 获赞

46: 评论

722: 收藏

私信

关注

热门文章

分类专栏

最新评论

计算机组成原理知识点【第三天】-补码移码
做而论道_CS: 所谓的移码，只是一个 “障眼法” 而已。补码，是代表正负数字的。学过计算机基础的，都知道补码的真值是什么！为了不让别人看懂，可以采用各种加密的方法。这也就是 “障眼法” 了。移码＝补码＋偏移量，就是最简单的加密方法。补码＝移码－偏移量，就是解密。偏移量，在不同的场合，有不同的值。在余三码中，偏移量＝3。在 ASCII 码中，偏移量＝48。教材中的移码，偏移量＝128。而在 IEEE754 中，偏移量＝127、32767。。。。在你独立控制的范围内，偏移量，你就可以自己设计。与别人不兼容，就可以避免被人破译。
只有迷信的人，没有迷信的知识
NLP还是CV？: 道家和佛家的看了一些书，天涯社区看了中国人写的经济历史分析，觉得比我看一年多的西方的东西收获的多的多
【诺贝尔物理奖量子纠缠】启发：命由我作，福由我求
NLP还是CV？: 身边有些我很佩服的人，也懂一点玄学。前两年我被找回到老家，遇到我基本从小没见的爷爷。算的也是比较准
【诺贝尔物理奖量子纠缠】启发：命由我作，福由我求
NLP还是CV？: 我错了，我发现我那年被西方的哲学骗了，后来接触的事情多了，知识也增加了，就想法变了
【思路+代码详解】【C】2-7 一元多项式求导 (20 分)
kamingkiller: 如果以-1 -1为结束符该怎么写

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

码上游 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。