Python之最简单爬虫

Python之最简单爬虫

前言:由于懒、没时间、也没啥技术也不太会表达,好久没写博客了,但一直听说Python有多厉害的,爬虫有多厉害的,而我没玩过,也不太清楚是个啥,搞得我很好奇,很早就想玩玩她了,所以最近学习了一下Python,还好由于我有一些JAVA的基础,感觉也不是很难,还是比较容易理解的,也算是入门了吧,话不多说,盘她~~

首先,解析下Python和爬虫(以我的理解,具体的请百度):

Python:一种开发语言,有点神奇,有点简单粗暴,基本语法类似于JAVA,C,C++吧!!!

爬虫:就是爬取网页等请求得到的数据,具体是请求网页URL得到网页的HTML,分析HTML,得到想要的数据,然后想干啥就干啥啦!!!

一、爬虫步骤:

(1)明确目的
(2)找到数据对应的网页
(3)分析网页的结构找到数据所在的标签位置
(4)模拟HTTP请求,向服务器发送请求获取到服务器返回给我们的HTML
(5)用正则表达式提取我们要的数据
(6)分析、精炼、展示、保存数据

二、我们的目标:

爬取爱奇艺网页最新电影名和评分,并高到低排序展示!!!

三、编码实现:

具体请看注解,还是挺详细的吧!!!

import re

from urllib import request
class Spider():
    # 要爬取的url
    url = 'https://www.iqiyi.com/dianying/?vfrm=pcw_home&vfrmblk=C&vfrmrst=712211_channel_dianying'

    # 正则表达式
    root_pattern = '<p class="main score">([\s\S]*?)</p>'
    grade_pattern = '<span class="text-score">([\s\S]*?)</span>'
    name_pattern = 'html">([\s\S]*?)</a>'

    # 私有方法:获取html
    def __fetch_content(self):
  • 5
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 10
    评论
评论 10
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值