Python采集*瓣电影影评并实现可视化分析

最新推荐文章于 2024-08-11 08:30:00 发布

茜茜是帅哥

最新推荐文章于 2024-08-11 08:30:00 发布

阅读量2.1k

点赞数 1

分类专栏： python爬虫文章标签： python pycharm 开发语言

本文链接：https://blog.csdn.net/m0_72282564/article/details/128690009

版权

前言

嗨喽，大家好呀~这里是爱看美女的茜茜呐

又到了学Python时刻~

环境使用:

Python 3.8 解释器
Pycharm 编辑器

模块使用

import parsel >>> pip install parsel
import requests >>> pip install requests
import csv

安装python第三方模块:

win + R 输入 cmd 点击确定, 输入安装命令 pip install 模块名 (pip install requests) 回车
在pycharm中点击Terminal(终端) 输入安装命令

( 更多资料、教程、文档点击此处跳转跳转文末名片加入君羊，找管理员小姐姐领取呀~ )

思路分析

代码展示

( 完整源码点击此处跳转跳转文末名片加入君羊，找管理员小姐姐领取呀~ )

数据采集

导入模块

# 导入数据请求模块 --> 第三方模块, 需要安装 pip install requests
import requests
# 导入数据解析模块 --> 第三方模块, 需要安装 pip install parsel
import parsel
# 导入csv模块 --> 内置模块, 不需要安装
import csv

“”"

发送请求, 模拟浏览器对于url地址发送请求
- 模拟浏览器: --> headers 请求头 <开发者工具进行复制>
  
  把python代码伪装成浏览器去发送请求
  
  目的: 为了防止被反pa
  
  反pa: 你得不到数据, 或者返回的数据不是你想要的
- 如何批量替换
  1. 选中替换内容, ctrl + R
  2. 勾选上 .* 正则
  3. 输入正则匹配规则, 进行替换
    
    :.*
    ,
- 采集的速度过快/频繁, 可能会IP异常
  
  解决方法:
  1. 登陆账号加上cookie
  2. 用IP代理, 切换IP
  免费的IP, https 可能用不了 HTTP有一些可以的, 质量不好
  
  氪金的IP 一个IP 几分钱一个
- 多页的数据采集
  
  分析请求链接的变化规律

“”"
0<起始数包含>, 201<末尾数不包含>, 20<步长>

for page in range(0, 201, 20):
    # 请求链接 字符串格式化方法 -->
    url = f'https://movie.****.com/subject/4811774/comments?start={
     page}&limit=20&status=P&sort=new_score'