🧠一、项目背景
考研热已成趋势,辅导机构如雨后春笋般兴起,从“新东方”、“文都”、“海天”,到线上机构如“考虫”、“沪江网校”、“启航教育”等,但辅导效果良莠不齐,“通过率”往往是学生最关心的指标之一。
但这些通过率数据通常不是官方发布的,而是散见于知乎、微博、贴吧、黑猫投诉、豆瓣等用户自发反馈的信息。我们希望通过构建一个Python爬虫系统,在全网范围内抓取关于辅导班考研通过率的评价和评论,并尝试量化其中出现的“通过”“录取”“没过”等关键词频次。
🧰二、技术路线与工具选型
2.1 项目目标拆解
-
确定关键词:如“考研通过率 + 新东方”、“海天 + 考研成绩”等
-
目标平台:知乎、贴吧、黑猫投诉、微博搜索结果、豆瓣
-
处理策略:
- 动态加载页面 → 使用
Playwright
- 评论内容提取 → 使用
BeautifulSoup4
+正则
- 频次统计 → 用
pandas
+collections.Counter
</
- 动态加载页面 → 使用