Python编程-爬虫原理与简单实践

最新推荐文章于 2024-08-09 08:21:31 发布

iamsongyu

最新推荐文章于 2024-08-09 08:21:31 发布

阅读量1.9k

点赞数

分类专栏：理论知识编程文章标签：爬虫 python BS4

本文链接：https://blog.csdn.net/iamsongyu/article/details/102983561

版权

理论知识同时被 2 个专栏收录

109 篇文章 13 订阅

订阅专栏

编程

13 篇文章 0 订阅

订阅专栏

一个简单的爬虫是比较初级入门并且也十分有实用价值的东东，例如可以获取一下每天的天气，喜欢看电影的可以爬一爬电影的榜单，复杂一点的可以根据已有的电影爬取封面、信息等。爬虫就是一个这样的东西，可以实现批量的获取我们想要的信息，取代了手工的点点点和选择等操作。

开题

我们知道html网页是由标签组成，通常同级并列的信息是位于同一类标签下，例如下面的一个电影网站

左侧是新上映的电影，包括图像名字和演员，右侧则是排名的榜单。图像和榜单分别位于两个div容器中，一个叫piclist，另一个为title。进一步的查看更细节的信息，看看这个piclist中的li列表元素内容

每个列表中的内容包括一个名字为pic的div容器和一个span元素，分别记录了诸如网页路径，标题，图像路径和演员等信息。正常这些我们都是可以在网页上直接看到的，但是使用爬虫时我们看到的是html文档，并看不到浏览器渲染的界面，此时就需要手动的获取标签中的内容。

再比如一个很多图像的壁纸网站？有很多历史数据的某个网站? 只要是你想要的、不想自己天天手动点或是数目太多操作不过来的，这些问题都是爬虫解决的。

爬虫需要什么？

经过前面的一些基本原理，我们大致的能够知道想要爬取信息需要哪些准备

1. 最基本的知道我们想要的目标信息，比如某个网站的图？网站的数据？天气？等等

2. 需要获得网站的html文档内容，其内容是由标签组成，了解我们需要的信息在哪些标签中

3. 截取标签的数据，提取其中需要的目标信息

4. 处理获取的数据，是保存到磁盘中？保存到数据库中？还是显示在窗口中？

万幸的是这里的大部分需要的功能已经有人帮我们完成了。拿python举例子，request可以帮助我们获取html文档内容，Beautiful Soup则是非常专业的网页标签匹配库，可以非常方便的提取指定标签的内容。

BS4使用

如何匹配到自己想要的内容是一个技术活，尤其是BS4的使用方法需要熟记于心。这里着实有一些非常容易混淆，且不好捋的地方，我尽量说明的透彻一些。

BS4中所有的匹配项都可以看做一个对象，我们可以继续匹配对象下的其他对象，或者是获取对象的属性内容。

BS4匹配对象的方法是搜索，可以根据标签或者是对象的某些属性寻找特定的对象，返回对象后我们依旧可以继续对新的对象进行匹配和属性获取。

例如获取div容器中所有的li中的span下的文字，也就是电影名字。

（使用网页初始化bs4，获取网页html文字内容后 soup = BeautifulSoup(html, 'html.parser') ）

步骤应该是这样的：

1. 获取class为piclist的div容器对象

div = soup.find("div")  #匹配所有div对象返回第一个
divs = soup.find_all("div")  #匹配所有div对象 返回可迭代对象

divpiclist = soup.find("div",class_="piclist")  #匹配特定名字的div对象


# 搜索还支持(name,id="XXX")
# find 仅返回第一个 find_all返回所有

# 更为细新奇的时他可以不要求对象的标签类型，仅通过属性匹配
# soup.find_all(class_="XXX")  #匹配所有div对象 返回可迭代对象
# soup.find_all(id="XXX")  #匹配所有div对象 返回可迭代对象
# soup.find_all(attrs={"属性":"值"})  #匹配所有div对象 返回可迭代对象

总之BS4的匹配功能几乎是让你能够匹配到所有的目标对象

2. 获取上一级对象中的所有li元素

# 我们获得了类别为piclist的div容器divpiclist 继续获取下面的所有li元素

lis = divpiclist.find_all('li')  # 没有限定直接获取就可以

3. 获取所有li元素中的span标签的元素

# lis包含所有的li对象，我们要获取的是每个li的span对象的文字内容
for li in lis:
    print(li.span.string)


# 这里涉及访问对象内容的方法 span几乎没有什么属性 img和a标签比较适用
# 方法有3 一会儿会演示
# 第一个是直接通过对象.子对象.属性的方法  一般用于标签内部文字等
# 第二个是通过对象.attrs["属性名"]的方法  attrs是包含对象所有属性的字典
# 第三个是对象["属性名"]

使用BS4切记一点，所有匹配都是对象，而所有得到的对象我们可以继续匹配和获取属性，掌握这个宗旨那么用起来就比较得心应手，不会出现乱了的情况，在命名方面最好使用目标标签命名，这样编程的时候方便识别。下面就实际演示一下这个例子。

简单实践

为了稍微有点难度，我们计划获取新的电影的图像和信息，前面已经观察好了网页的html文档结构，我们就直接上手。

from bs4 import BeautifulSoup
import requests
import os

# 这里是第一步 获取html文档 文字内容在text属性中
url = "http://www.656ys.com/"
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36",
    "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8",
    "Accept-Encoding": "gzip, deflate, sdch",
}
res = requests.get(url, headers=headers)
print(res.status_code)
res.apparent_encoding  # 可能用到的编码
res.encoding = 'utf-8'



#创建 Beautiful Soup 对象 使用获取的html文档
soup = BeautifulSoup(res.text, 'html.parser')


# 第一步  获取名字为piclist的div对象
piclist = soup.find("div", class_="piclist")


# 第二步  获取div中的所有li对象 返回可迭代对象
lis = piclist.find_all("li")
    # lis = piclist.find_all(class_="pic")   # 可用于获取目标对象的多种方式
    # lis = piclist.find_all(id=X)
    # lis = piclist.find_all(attrs={"class": "pic"})

# 第三步 遍历每个li对象 获取属性等信息
for li in lis:

    aa = li.find_all("a")   # 每个li有两个a标签 第一个是img元素  第二个是名字
    for i in range(2):
        if i == 0:

            # 获取a下面的img标签的src元素
            print(aa[i].img.attrs['src'])  # 第二中获取属性的方法aa[i].img['src']

            # 获取文件名 然后保存到本地
            path = aa[i].img.attrs['src']
            name = os.path.basename(path)
            with open("d:\\"+name, "wb") as f:  # 注意wb二进制写 get获得的二进制数据
                f.write(requests.get(path).content)
        else:

            # 获取标签的文字内容
            print(aa[i].get_text())  #第二种方法 aa[i].string

    # 获取li下面的p标签 其中的文字为演员
    actor = li.find('p')
    print(actor.string)

F:\PROGRAMME\python\python.exe F:/SOFTWARE/编程软件/python/projects/AAA/warm.py
200
http://rpg.pic-imges.com/pic/upload/vod/2019-10/1571315259.jpg
没有秘密的你
戚薇,金瀚,王阳明,黄梦莹
http://tu.tianzuida.com/pic/upload/vod/2019-10-24/201910241571923506.jpg
海棠经雨胭脂透
邓伦,李一桐,方中信,应昊茗
http://tu.tianzuida.com/pic/upload/vod/2019-10-23/201910231571834520.jpg
初恋那件小事
赖冠霖,赵今麦,柴蔚,王润泽
http://rpg.pic-imges.com/pic/upload/vod/2019-10/1571674332.jpg
我的机器人男友
姜潮,毛晓彤,李小冉,宁理
http://tu.tianzuida.com/pic/upload/vod/2019-10-11/201910111570792595.jpg
光荣时代
张译,黄志忠,潘之琳,薛佳凝
http://rpg.pic-imges.com/pic/upload/vod/2019-10/15699260240.jpg
中国机长
张涵予 欧豪 杜江 袁泉
http://img.weituku.cc/upload/vod/2019-11-03/201911031572786172.png
谁的青春不叛逆
于朦胧,毛晓彤,梁大维,尹淇
http://pic.bdbdtv.com/upload/vod/2019-10-10/15707131274.jpg
满满喜欢你
鲁照华,刘昱晗,谢治勋,韩昕妤
http://pic.bdbdtv.com/upload/vod/2019-10-08/15705378481.jpg
学警旋风
隋雨蒙,刘潮,李柏谊
http://img.weituku.cc/upload/vod/2019-10-17/201910171571273518.png
一马三司令
张明建,苏丽,李君峰,丁柳元

下载的图像