python为啥爬取数据会有重复_使用python爬取B站千万级数据

最新推荐文章于 2023-06-21 03:52:16 发布

weixin_39643336

最新推荐文章于 2023-06-21 03:52:16 发布

阅读量965

点赞数

文章标签： python为啥爬取数据会有重复

本文介绍了使用Python爬取B站用户关注数据的过程，包括数据库设计、防止重复爬取的策略以及词云分析热门UP主。通过建立sqlite数据库存储用户关系和信息，并限制爬取前5页数据，最终生成词云图揭示了最受关注的UP主。

摘要由CSDN通过智能技术生成

Python(发音：英[?pa?θ?n]，美[?pa?θɑ:n])，是一种面向对象、直译式电脑编程语言，也是一种功能强大的通用型语言，已经具有近二十年的发展历史，成熟且稳定。它包含了一组完善而且容易理解的标准库，能够轻松完成很多常见的任务。它的语法非常简捷和清晰，与其它大多数程序设计语言不一样，它使用缩进来定义语句。

Python支持命令式程序设计、面向对象程序设计、函数式编程、面向切面编程、泛型编程多种编程范式。与Scheme、Ruby、Perl、Tcl等动态语言一样，Python具备垃圾回收功能，能够自动管理存储器使用。它经常被当作脚本语言用于处理系统管理任务和网络程序编写，然而它也非常适合完成各种高级任务。Python虚拟机本身几乎可以在所有的作业系统中运行。使用一些诸如py2exe、PyPy、PyInstaller之类的工具可以将Python源代码转换成可以脱离Python解释器运行的程序。

粉丝独白

说起热门的B站相信很多喜欢玩动漫的，看最有创意的Up主的同学一定非常熟悉。我突发奇想学Python这么久了，为啥不用Python爬取B站中我关注的人，已经关注的人他们关注的人，看看全站里面热门的UP主都是是哪些。

要点：

- 爬取10万用户数据

- 数据存储

- 数据词云分析

1.准备阶段

写代码前先构思思路：既然我要爬取用户关注的用户，那我需要存储用户之间的关系，确定谁是主用户，谁是follower。

存储关系使用数据库最方便，也有利于后期的数据分析，我选择sqlite数据库，因为Python自带sqlite，sqlite在Python中使用起来也非常方便。

最低0.47元/天解锁文章

weixin_39643336

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python为啥爬取数据会有重复_使用python爬取B站千万级数据

Python(发音：英[?pa?θ?n]，美[?pa?θɑ:n])，是一种面向对象、直译式电脑编程语言，也是一种功能强大的通用型语言，已经具有近二十年的发展历史，成熟且稳定。它包含了一组完善而且容易理解的标准库，能够轻松完成很多常见的任务。它的语法非常简捷和清晰，与其它大多数程序设计语言不一样，它使用缩进来定义语句。Python支持命令式程序设计、面向对象程序设计、函数式编程、面向切面编程、泛型编...
复制链接

扫一扫