Python之最简单爬虫

最新推荐文章于 2024-05-28 11:42:13 发布

置顶

是黎白先生阿

最新推荐文章于 2024-05-28 11:42:13 发布

阅读量1.4k

点赞数 5

分类专栏： Python 文章标签： python

本文链接：https://blog.csdn.net/weixin_40914842/article/details/109062948

版权

Python之最简单爬虫

前言：由于懒、没时间、也没啥技术也不太会表达，好久没写博客了，但一直听说Python有多厉害的，爬虫有多厉害的，而我没玩过，也不太清楚是个啥，搞得我很好奇，很早就想玩玩她了，所以最近学习了一下Python，还好由于我有一些JAVA的基础，感觉也不是很难，还是比较容易理解的，也算是入门了吧，话不多说，盘她~~

首先，解析下Python和爬虫（以我的理解，具体的请百度）：

Python:一种开发语言，有点神奇，有点简单粗暴，基本语法类似于JAVA,C,C++吧！！！

爬虫：就是爬取网页等请求得到的数据，具体是请求网页URL得到网页的HTML，分析HTML，得到想要的数据，然后想干啥就干啥啦！！！

一、爬虫步骤：

（1）明确目的
（2）找到数据对应的网页
（3）分析网页的结构找到数据所在的标签位置
（4）模拟HTTP请求，向服务器发送请求获取到服务器返回给我们的HTML
（5）用正则表达式提取我们要的数据
（6）分析、精炼、展示、保存数据

二、我们的目标：

爬取爱奇艺网页最新电影名和评分，并高到低排序展示！！！

三、编码实现：

具体请看注解，还是挺详细的吧！！！

import re

from urllib import request
class Spider():
    # 要爬取的url
    url = 'https://www.iqiyi.com/dianying/?vfrm=pcw_home&vfrmblk=C&vfrmrst=712211_channel_dianying'

    # 正则表达式
    root_pattern = '<p class="main score">([\s\S]*?)</p>'
    grade_pattern = '<span class="text-score">([\s\S]*?)</span>'
    name_pattern = 'html">([\s\S]*?)</a>'

    # 私有方法：获取html
    def __fetch_content(self):

最低0.47元/天解锁文章

是黎白先生阿

关注

5
点赞
踩
8

收藏

觉得还不错? 一键收藏
10
评论
Python之最简单爬虫

爬虫前凑：（1）明确目的（2）找到数据对应的网页（3）分析网页的结构找到数据所在的标签位置（4）模拟HTTP请求，向服务器发送请求获取到服务器返回给我们的HTML （5）用正则表达式提取我们要的数据（6）分析、精炼、展示、保存数据
复制链接

扫一扫

专栏目录