python数据挖掘电影评分分析_[Python数据挖掘]爬行豆瓣影评数据,python,爬取

该博客介绍了如何使用Python进行数据挖掘,具体是爬取豆瓣电影的用户评论数据。作者通过导入所需的库,如urllib和BeautifulSoup,实现多浏览器访问以避免被拒绝,并编写函数获取和解析网页数据,最后将数据存储到CSV文件中。博客内容包括创建请求头、爬取评论信息、存储数据到表格等步骤。
摘要由CSDN通过智能技术生成

# 1、导入需要的库

import urllib.request

from bs4 import BeautifulSoup

# 随机数的库

import random

# 时间库

import time

# 表格库

import csv

# 2、分多个浏览器访问豆瓣网,防止访问多页时被拒绝

# 每个浏览器在请求数据的时候,请求头是不一样

# 计算机命名规则:驼峰命名法

# url:传值过来的访问地址

def getRequest(url):

# 谷歌浏览器

header1 = {

"Host":"movie.douban.com",

"User-Agent":"Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36"

}

# 火狐浏览器

header2 = {

"Host": "movie.douban.com",

"User-Agent": "Mozilla/5.0 (Windows NT 6.1; rv:73.0) Gecko/20100101 Firefox/73.0"

}

# 将浏览器装入列表里

list = [header1,header2]

# 随机取一个请求头 len(list)-1:列表长度-1

index

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值