python爬取电影网站存储于数据库_Python零基础爬虫教程(实战案例爬取电影网站资源链接)...

前言

好像没法添加链接,文中的链接只能复制到浏览器查看了

这篇是我写在csdn的,那里代码格式支持更好,文章链接 https://blog.csdn.net/d497465762/article/details/105580408

女朋友看了都能学会的爬虫教学

自己断断续续学习练习了两三年python爬虫,从网上看了无数教程,跟大神们学习了各种神奇的操作,现在虽然没成为大神,但是想通过这篇教程来分享自己学习的爬虫实战案例。

通过本教程,你将学会如何用Python爬虫从网络上爬取你想要的电影下载资源。本案例以00电影网(www.0011kytt.com)为例,手把手带你写程序,把你的智障小爬虫教到幼儿园毕业。当然你可以修改代码爬取你想要的任何内容。

如果你是真·零基础请从头阅读,如果你有些基础可以选择部分阅读。

第一章 你需要的环境和软件

python3.5

既然我们是python爬虫,那必然需要python了。我用的是3.5.3版本

https://www.python.org/downloads/release/python-353/  点这个链接并下拉翻到图中位置

Python3.5.3下载页

点击红框里的链接进行下载,如果你是64位系统就点第一个,如果你是32位系统就点第二个

下载完成后是一个.exe文件,双击运行,开始安装,一路下一步就可以了,这里我已经安装过了所以没法一步步演示,如果遇到问题可以留言保证第一时间回答,让你的爬虫不会趴窝在起跑线上

pycharm community 2017

这个呢是一个代码编辑器,可以大大提高编程效率,把他看做你的爬虫的幼儿园,就在这里面让它一点点变强

同样是去官网下载,并且community版本是免费的,完全够用

http://www.jetbrains.com/pycharm/download/#section=windows  点进去之后如图所示

pycharm下载页

确保你选择了红框的位置,然后点击download就可以下载了

下载完成后双击打开安装程序,依然是一直点下一步就好了,当然也有一些自定义选项你可以自己选择

到这里,幼儿园就建好了

环境配置

接下来就是环境配置,这一步的目的是让pycharm和python配合

首先,为了实现爬虫程序,我们需要给python安装一些工具包,操作非常简单

在开始菜单搜索cmd并回车,打开终端命令行窗口

手动输入 pip3 install -------------- 并回车

本文案例中需要两个库安装如下

pip3 install requests

pip3 install Beautifulsoup4  这两句要分别运行,等一句安装成功了再运行另一句

然后等待安装,成功后会提示下图字样pip安装库成功

第二章  开始写python爬虫

问题分析

在做任何爬虫之前,我们都要先了解你爬取的网站的源码,根据源码来找到你想爬取的内容在什么位置

那么首先我们来看看目标网站的页面源码目标网站,http://www.0011kytt.com/  点击这个网址打开网页,然后按F12键打开开发者模式,如图所示目标网站源码

图中,中间靠右侧的红色框里就是我们主要查看的内容,你要从这里面的代码中找到你想要的内容才可以进行爬取。

这里,我们的目标是搜索电影资源并保存下来。可以看到,网页中间有一个搜索框,输入电影名字点击搜索之后,会跳出搜索结果的页面,然后点击搜索结果就进入了该电影的详情页,并且有下载链接,如图所示电影详情页

这里我们搜索的是霸王别姬。

由上述过程,可以明确我们要写一个Python爬虫程序,让爬虫来代替我们去搜索和获取电影的下载链接,这就是我们接下来编程的指导思想,告诉你的程序让他去做什么。

总结一下,我们的爬虫要做下面这几件事情:

1、打开目标网页

2、找到搜索框

3、提交搜索电影名并打开搜索结果页面

4、进入搜索电影详情页

5、找到下载链接位置并把所有链接保存到本地电脑上

编程实现爬虫

1、打开目标网页

打开pycharm左上角菜单栏以此点击file-->new project

在弹出的对话框中,设置项目路径,这里命名为spider,然后点击create

稍等几秒项目就建立完成了,这时候在左边资源管理器栏会出现spider项目文件夹,在spider上面右键-->new-->Python file来创建一个python程序脚本文件,命名为spider,从现在开始这就是你儿子,你要教会他一切

然后就可以开始教我们的爬虫做事了

复制下面代码到spider.py中

# 导入之前安装的库

import requests

from bs4 import BeautifulSoup

# 首先定义以个变量url并赋值为目标网站'http://www.0011kytt.com'以及要搜索的电影名movie_name

# 注意引号,字符串必须用引号包围起来

movie_name = '霸王别姬'

url = 'http://www.0011kytt.com'

# 然后用request.get()来获取网页

r = requests.get(url)

# 这里要根据网页的编码来设置解码,这个目标网站编码为'utf-8'

r.encoding = 'utf-8'

# 然后获取网页源码并赋值给变量html

html = r.text

# 最后打印出网页源码

print(html)

然后右键spider.py脚本文件,点击 run 'spyder.py' 即可运行

运行结果在下面控制台栏显示,如图所示爬到了网页的源码

可以看到我们的爬虫乖乖爬到了网页的源码,跟浏览器中按F12得到的是一样的,这一步大功告成。

2、找到搜索框

这一步就要指挥我们的小爬虫根据刚才得到的源码去找搜索框了

小爬虫它怎么会知道搜索框在哪里呢,

当然是我们告诉它啊,

那我们怎么知道呢,

OK,回到浏览器按F12,在红框源码部分把鼠标指针放上去挨着找,鼠标指针位置对应的网页部分会变灰色,点击源码上的小三角可以展开所有内容,方便我们查找,如图所示目标网站搜索框位置

咦,找到了耶,好神奇有没有

现在我们知道了原来搜索框在这个网页源码的

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值