Python采集*瓣电影影评并实现可视化分析

前言

嗨喽,大家好呀~这里是爱看美女的茜茜呐

又到了学Python时刻~

环境使用:

  • Python 3.8 解释器

  • Pycharm 编辑器

模块使用

  • import parsel >>> pip install parsel

  • import requests >>> pip install requests

  • import csv

安装python第三方模块:

  1. win + R 输入 cmd 点击确定, 输入安装命令 pip install 模块名 (pip install requests) 回车

  2. 在pycharm中点击Terminal(终端) 输入安装命令

( 更多资料、教程、文档点击此处跳转跳转文末名片加入君羊,找管理员小姐姐领取呀~ )

思路分析

代码展示

( 完整源码点击此处跳转跳转文末名片加入君羊,找管理员小姐姐领取呀~ )

数据采集

导入模块

# 导入数据请求模块 --> 第三方模块, 需要安装 pip install requests
import requests
# 导入数据解析模块 --> 第三方模块, 需要安装 pip install parsel
import parsel
# 导入csv模块 --> 内置模块, 不需要安装
import csv

“”"

  1. 发送请求, 模拟浏览器对于url地址发送请求

    • 模拟浏览器: --> headers 请求头 <开发者工具进行复制>

      把python代码伪装成浏览器去发送请求

      目的: 为了防止被反pa

      反pa: 你得不到数据, 或者返回的数据不是你想要的

    • 如何批量替换

      1. 选中替换内容, ctrl + R

      2. 勾选上 .* 正则

      3. 输入正则匹配规则, 进行替换

        :.*
        ,

    • 采集的速度过快/频繁, 可能会IP异常

      解决方法:

      1. 登陆账号加上cookie

      2. 用IP代理, 切换IP

      免费的IP, https 可能用不了 HTTP有一些可以的, 质量不好

      氪金的IP 一个IP 几分钱一个

    • 多页的数据采集

      分析请求链接的变化规律

“”"
0<起始数包含>, 201<末尾数不包含>, 20<步长>

for page in range(0, 201, 20):
    # 请求链接 字符串格式化方法 -->
    url = f'https://movie.****.com/subject/4811774/comments?start={
     page}&limit=20&status=P&sort=new_score'

伪装模拟

    he
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值