python爬取豆瓣电影top250编码_Python学习日记1| 用python爬取豆瓣电影top250

海盐冰梨

于 2020-12-28 19:46:46 发布

阅读量813

点赞数 1

文章标签： python爬取豆瓣电影top250编码

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_30888681/article/details/111981172

版权

这篇博客记录了作者使用Python爬取豆瓣电影Top250的过程，包括分页爬取、编码问题的解决，如从ASCII、Unicode到GBK的转换。文章还介绍了字符串编码的基本知识，如ASCII、Unicode、UTF-8和GBK，并展示了爬取的数据字段，如电影名、演员、评分等。

摘要由CSDN通过智能技术生成

今天是3.17号。

离毕业论文开题只剩下不到15天，自己这边还不知道要写什么好，问了导师，导师给的范围超级广泛，实在是想吐槽。想了几天，决定了要尽快给老师说自己的想法和方向，做什么还是靠自己比较靠谱。

身边的同学这学期都开始去实习了，自己投了很多份简历，大都石沉大海，唯一收到面试通知的广发基金，结果因为表现太差，缺乏深入思考gg了。看来术业有专攻，找到好工作还是要专的好。

最近投了几篇小论文出去不过大都要到五一才会有结果，现在这一段时间想着学习点什么，以备为暑期开始找工作积攒点东西，或者仅仅是兴趣而已。

打算在这里写关于：

1.【python学习日记】

2.【求职日记】

3.【吉他学习日记】

4.【daily life】

这四类的文章吧，但愿能够坚持得久远一点，因为自己大约了解到自己是那种做某件事一开始热情满满，一旦遇到困难不得化解就想放弃的人。

加油，alovera&薄荷蛋炒饭。

这里第一篇写自己最近用python自动爬取豆瓣电影top250的一些总结吧~

爬取过程中解决的问题：

1.分页爬取时将url中的变量换为｛｝，同时加上.format(str(i)) for i in range(0,51,25),这里表示从0开始依次取0、25、50，注意51是取不到的。

2.最开始用2.7版本，在使用字典存储数据并写入excel中时出现中文显示为unicode，不能正常显示，最后还是重新安装上3.4版本才正常。但此时还出现的一个问题是中文虽然不是显示为unicode了，但完全是乱码，于是加上decode='gb2312'后才正常。

关于字符串编码了解的知识如下，有待后面进一步去实践。

首先python中用到的字符串编码有以下4种，但是我们要明白，字符串在网络服务器或者磁盘中存储的编码是Unicode编码，然后根据不同的需要与其它编码进行转换。

(1)ASCII编码

(2)Unicode编码

(3)UTF-8编码

(4)GBK编码

将字符串进行编码和解码分别使用，encode(),decode()，方法如下：

字符串在Python内部的表示是

最低0.47元/天解锁文章

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
python爬取豆瓣电影top250编码_Python学习日记1| 用python爬取豆瓣电影top250

今天是3.17号。离毕业论文开题只剩下不到15天，自己这边还不知道要写什么好，问了导师，导师给的范围超级广泛，实在是想吐槽。想了几天，决定了要尽快给老师说自己的想法和方向，做什么还是靠自己比较靠谱。身边的同学这学期都开始去实习了，自己投了很多份简历，大都石沉大海，唯一收到面试通知的广发基金，结果因为表现太差，缺乏深入思考gg了。看来术业有专攻，找到好工作还是要专的好。最近投了几篇小论文出去不过大都...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。