python程序设计实训心得体会_20194220 实验四《Python程序设计》实验报告

最新推荐文章于 2021-02-04 08:19:45 发布

小鹿嘻嘻

最新推荐文章于 2021-02-04 08:19:45 发布

阅读量5.2k

点赞数 2

文章标签： python程序设计实训心得体会

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_28793831/article/details/112023712

版权

本文是关于Python程序设计的实训报告，作者选择了爬虫获取数据，具体实现抓取豆瓣电影Top250的详细信息，包括电影排名、名称、导演、上映年份等，并通过正则表达式解析页面，最后将数据写入文件。在实验过程中，作者遇到并解决了语法错误、文件写入失败和页面信息提取等问题。

摘要由CSDN通过智能技术生成

20194220 2019-2020-2 《Python程序设计》实验四报告

课程：《Python程序设计》

班级： 1942

姓名：梁勇

学号：20194220

实验教师：王志强

实验日期：2020年6月7日

必修/选修：公选课

1.实验内容

Python综合应用：爬虫、数据处理、可视化、机器学习、神经网络、游戏、网络安全等

我选择了，爬虫获取数据

2. 实验过程及结果

首先看书了解爬虫

爬虫的原理是从一个链接开始发送HTTP请求来连接，然后得到内容。

爬虫执行流程：

1、发送请求request

2、获取响应内容 response

3、解析内容

做好准备工作

1、下载urllib模块

windows可以使用下列命令进行安装

pip install urllib(其实我的python3.8自带了这个模块,直接导入就好了)

2、学习Request函数的使用

开始构思

1、首先想好要抓取什么网站，因为想不到什么，就干脆去找豆瓣排行榜

2、确定URL格式

我要抓取的豆瓣电影 Top 250，地址是https://movie.douban.com/top250?start=

3、进行页面抓取

页面抓取需要用刚才导入的urllib库。

因此先定义一个类名MovieTop，然后在类中定义好获取页面的方法和初始化方法：

class MovieTop(object):

def __init__(self):

self.start = 0

self.param = '&filter='

self.headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64)'}

self.movie_list = []

self.file_path = 'D:\综合实践.txt'

def get_page(self):

try:

url = 'https://movie.douban.com/top250?start=' + str(self.start)

req = request.Request(url, headers = self.headers)

response = request.urlopen(req)

page = response.read().decode('utf-8')

page_num = (self.start + 25)//25

print(f'正在抓取第{str(page_num)}页数据...')

self.start += 25

return page

except request.URLError as e:

if hasattr(e,'reason'):

print(f'抓取失败，失败原因：{e.reason}')

4、可以提取信息了，但是

最低0.47元/天解锁文章

关注

2
点赞
踩
21

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。