第一期：【python爬虫】豆瓣电影top250

最新推荐文章于 2024-08-03 17:14:33 发布

小姜课代表

最新推荐文章于 2024-08-03 17:14:33 发布

阅读量829

点赞数

分类专栏： python语言爬虫文章标签： python

本文链接：https://blog.csdn.net/qq_41985880/article/details/100025133

版权

1.首先看最后的爬取结果
在这里插入图片描述

还有电影的信息，我保存的是csv文件。可以学到爬虫的相关知识和数据保存的信息。

删除信息，直接上代码。

红色圆点旁边的是清空。（如上图所示）
下面请求中的第一个或者前几个（如下图所示top250）找到：User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36
在这里插入图片描述

打印出来的源代码和 网页的源代码 （查看网页源代码）进行对比，是一样的。
获取源代码（如下图所示）

#抓住User-Agent这个数据，几乎不会受到什么限制
import requests
from lxml import etree

def get_html(url):
#打开开发者工具，按F12，打开network,然后清空(clear)，刷新
#从下面的请求中找到第一个
#下面的代码，加上了单引号，注意查看
	headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36'}

	try:
		html = requests.get(url,headers = headers)
		html.encoding = html.apparent_encoding#声明一下他的编码方式
		if html.status_code == 200:
			print("成功过获取源代码")
			#print(html.text)#获取之后就把他注释点，然后我们就开始解析
	except Exception as e:#否则把异常给输出
		print('获取源代码失败：%s'%e)

	return html.text

if __name__ == '__main__':
	url = 'https://movie.douban.com/top250'#豆瓣的反扒机制不是很强，基本上没有反扒
	html = get_html(url)#获取网页源代码

最低0.47元/天解锁文章

小姜课代表

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
第一期：【python爬虫】豆瓣电影top250

1.首先看最后的爬取结果还有电影的信息，我保存的是csv文件。可以学到爬虫的相关知识和数据保存的信息。删除信息，直接上代码。红色圆点旁边的是清空。（如上图所示）下面请求中的第一个或者前几个（如下图所示top250）找到：User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, ...
复制链接

扫一扫

专栏目录