第一期:【python爬虫】豆瓣电影top250

1.首先看最后的爬取结果
在这里插入图片描述
在这里插入图片描述
还有电影的信息,我保存的是csv文件。可以学到爬虫的相关知识和数据保存的信息。
在这里插入图片描述
在这里插入图片描述
删除信息,直接上代码。
在这里插入图片描述
红色圆点旁边的是清空。(如上图所示)
下面请求中的第一个或者前几个(如下图所示top250)找到:User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36
在这里插入图片描述
在这里插入图片描述
打印出来的源代码和 网页的源代码 (查看网页源代码)进行对比,是一样的。
获取源代码(如下图所示)

#抓住User-Agent这个数据,几乎不会受到什么限制
import requests
from lxml import etree

def get_html(url):
#打开开发者工具,按F12,打开network,然后清空(clear),刷新
#从下面的请求中找到第一个
#下面的代码,加上了单引号,注意查看
	headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36'}

	try:
		html = requests.get(url,headers = headers)
		html.encoding = html.apparent_encoding#声明一下他的编码方式
		if html.status_code == 200:
			print("成功过获取源代码")
			#print(html.text)#获取之后就把他注释点,然后我们就开始解析
	except Exception as e:#否则把异常给输出
		print('获取源代码失败:%s'%e)

	return html.text

if __name__ == '__main__':
	url = 'https://movie.douban.com/top250'#豆瓣的反扒机制不是很强,基本上没有反扒
	html = get_html(url)#获取网页源代码
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值