微博数据采集,微博爬虫,微博网页解析,可视化爬取(主体内容+评论内容)

githubhttps://github.com/zhouyi207/WeiBoCrawler

项目介绍如下:

😉😉😉 本项目打算长期维护,欢迎大家 Pull requests 成为 Contributor 😉😉😉

😘😘😘 如果发现 bug, 可以通过提 Issues 或添加微信: woyaolz 沟通 ! 😘😘😘

😁该项目是什么?

该项目主要用于对微博进行数据采集,包括微博详细页内容、微博评论内容、微博转发量、微博点赞量,微博评论量等信息,方便做学术研究时采集数据。

😋为什么使用本项目?

  • 简单: 快速上手,只需几行代码即可完成数据采集。
  • 高效: 采用异步请求和异步存储的方式,大大提高数据采集效率。
  • 可视化: 利用 streamlit 编写了一个可视化界面,方便用户进行数据采集和数据查询。
  • 数据库: 将 tinydb 改为 SQL 数据库,可以连接自定义数据库。
  • Cookies: 不需要手动输入 cookies,扫码自动获取 cookies。

🥂更新修复

  • 2025.03.31 解决高级检索时间问题,同时删除了检索出现微博推荐的 “可能感兴趣” 的无关数据。
  • 2025.03.02 web前端获取cookie使用线程进行优化,替换掉 PIL.Image 库将二维码展示在网页中。
  • 2025.02.23 添加一个错误报错提示,先获取 cookie 才能生成 config.toml 文件,否则会报错。

🚤快速上手

1. 下载本项目

在指定目录下使用 git 命令克隆本项目下载本项目的 zip 包然后解压

git clone https://github.com/zhouyi207/WeiBoCrawler.git

2. 安装依赖

在项目根目录下使用 pip 命令安装依赖,注意这里的 Python 版本是 3.10 版本。

pip install -r requirements.txt

3. 运行程序

在项目根目录下使用 streamlit 命令运行程序

streamlit run web/main.py

🎨 界面展示

1. 列表搜索

列表搜索

2. 详细页搜索

详细搜索

3. 一级评论搜索

一级评论搜索

4. 二级评论搜索

二级评论搜索

5. SQL 数据库查询

SQL 数据库查询

🧑‍🎓项目相关

1. 主体处理

2. UID 和 MID

3. 数据流向

爬虫Python学习是指学习如何使用Python编程语言来进行网络爬取和数据提取的过程。Python是一种简单易学且功能强大的编程语言,因此被广泛用于爬虫开发。爬虫是指通过编写程序自动抓取网页上的信息,可以用于数据采集、数据分析、网站监测等多个领域。 对于想要学习爬虫的新手来说,Python是一个很好的入门语言。Python的语法简洁易懂,而且有丰富的第三方库和工具,如BeautifulSoup、Scrapy等,可以帮助开发者更轻松地进行网页解析和数据提取。此外,Python还有很多优秀的教程和学习资源可供选择,可以帮助新手快速入门并掌握爬虫技能。 如果你对Python编程有一定的基础,那么学习爬虫并不难。你可以通过观看教学视频、阅读教程、参与在线课程等方式来学习。网络上有很多免费和付费的学习资源可供选择,你可以根据自己的需求和学习风格选择适合自己的学习材料。 总之,学习爬虫Python需要一定的编程基础,但并不难。通过选择合适的学习资源和不断实践,你可以逐步掌握爬虫的技能,并在实际项目中应用它们。 #### 引用[.reference_title] - *1* *3* [如何自学Python爬虫? 零基础入门教程](https://blog.csdn.net/zihong523/article/details/122001612)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^koosearch_v1,239^v3^insert_chatgpt"}} ] [.reference_item] - *2* [新手小白必看 Python爬虫学习路线全面指导](https://blog.csdn.net/weixin_67991858/article/details/128370135)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^koosearch_v1,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]
评论 25
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值