python爬虫猫眼电影数据csv和mysql存储过程解析

最新推荐文章于 2021-04-24 00:29:32 发布

lamehd

最新推荐文章于 2021-04-24 00:29:32 发布

阅读量1.1k

点赞数

分类专栏： python 文章标签：程序员编程学习开发 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lamehd/article/details/102460810

版权

本文详述了使用Python爬虫抓取猫眼电影top100数据的过程，包括CSV存储和MySQL数据库存储。首先，介绍了如何利用csv模块将数据保存到CSV文件，然后讲解了如何分析猫眼电影页面URL规律进行动态抓取。接着，提到了数据持久化存储到MySQL数据库的方法，回顾了pymysql模块的使用，并给出了存入电影信息的SQL查询示例。最后，鼓励读者参与讨论并提供了MongoDB存储的思考题。

摘要由CSDN通过智能技术生成

这篇文章主要介绍了python爬虫猫眼电影数据csv和mysql存储过程解析,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下

1 # 去掉左右空格
2 'hello world'.strip()  # 'hello world'
3 # 按指定字符切割
4 'hello world'.split(' ') # ['hello','world']
5 # 替换指定字符串
6 'hello world'.replace(' ','#') # 'hello#world'


我是一名python开发工程师，整理了一套python的学习资料，从基础的python脚本到web开发、爬虫、
数据分析、数据可视化、机器学习、面试真题等。想要的可以进群：688244617免费领取

csv模块

作用：将爬取的数据存放到本地的csv文件中

使用流程

导入模块
打开csv文件
初始化写入对象
写入数据(参数为列表)

1

2

3

4

5

6

7

8

9

10

11

import csv

with open('test.csv','w') as f:

writer = csv.writer(f) # 初始化写入对象

# 写一行

writer.writerow(['超哥哥',20])

writer.writerow(['步惊云',22])

with open('test.csv','a') as f:

writer = csv.writer(f)

# 写多行

data_list = [('聂风',23),('秦霜',30)]

writer.writerows(data_list)

Windows中使用csv模块默认会在每行后面添加一个空行，使用newline=''可解决

with open('xxx.csv','w',newline='') as f:

猫眼电影top100抓取案例

确定URL网址

猫眼电影 - 榜单 - top100榜目标

电影名称、主演、上映时间操作步骤

1、查看是否为动态加载

右键 - 查看网页源代码 - 搜索爬取关键字（查看在源代码中是否存在）

2、找URL规律

第1页：https://maoyan.com/board/4?offset=0
第2页：https://maoyan.com/board/4?offset=10
第n页：offset=(n-1)*10

3、正则表达式

<div class="movie-item-info">.*?title="(.*?)".*?class="star">(.*?)</p>.*?releasetime">(.*?)</p>

4、编写程序框架，完善程序

打印程序执行时间
随机的User-Agent,(确保每次发请求使用随机)
数据爬下来后做处理(字符串),定义成字典
一条龙: 获取 -> 调用解析 -> 数据处理
猫眼电影数据存入本地 maoyanfilm.csv 文件

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

47

48

49

50

51

52

53

54

55

56

57

58

59

60

61

62

63

64

65

66

67

68

from urllib import request

import time

import re

import csv

import random

class MaoyanSpider(object):

def __init__(self):

self.page = 1 # 用于记录页数

self.url = 'https://maoyan.com/board/4?offset={}'

self.agent = [

'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.1 (KHTML, like Gecko) Chrome/14.0.835.163 \

Safari/535.1',

'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:6.0) Gecko/20100101 Firefox/6.0',

'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; WOW64; Trident/4.0; SLCC2; .NET CLR 2.0.50727; \

.NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; InfoPath.3)',

'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.1 (KHTML, like Gecko) Chrome/14.0.835.163 Safari/535.1']

# 请求

def get_page(self, url):

head

最低0.47元/天解锁文章

lamehd CSDN认证博客专家 CSDN认证企业博客

码龄7年

208: 原创

3万+: 周排名

79万+: 总排名

38万+: 访问

: 等级

5254: 积分

111: 粉丝

250: 获赞

33: 评论

1023: 收藏

私信

关注

分类专栏

python 40篇

最新评论

C、python、Java都会，却不精通，如何把一门语言学到精通？
CSDN-Ada助手: 多亏了你这篇博客, 解决了问题: https://ask.csdn.net/questions/8008121, 请多输出高质量博客, 帮助更多的人
详解numpy矩阵的创建与数据类型
万里江山似锦绣: 感觉这的‘矩阵’，叫法不太正确，叫数组更合适些。矩阵是np.matrix()创建
3分钟，让你学会区分python中self与__init__？
亚瑟不要沉默: 挺通俗的，在应用层面，哈哈，感谢
实用技巧——Python实现从Excel读取数据并绘制成图像
m0_73784880: 意思是 int object has no attribute “append”怎么搞
拷贝数据几小时？python63行代码轻松复制500G文件
qq_58145401: 写的真乱

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。