Skr-Eric的爬虫课堂（四）——爬虫的xpath工具、lxml库及xpath使用模块和爬取百度、糗百的案例

最新推荐文章于 2024-06-06 15:13:26 发布

Skr-Eric

最新推荐文章于 2024-06-06 15:13:26 发布

阅读量417

点赞数

分类专栏：爬虫--Skr-Eric的编程课堂文章标签：爬虫 python xpath 案例

本文链接：https://blog.csdn.net/Skr_Eric/article/details/103808454

版权

爬虫--Skr-Eric的编程课堂专栏收录该内容

9 篇文章 0 订阅

订阅专栏

xpath工具(解析)

1、xpath

在XML文档中查找信息的语言,同样适用于HTML文档检索

2、xpath辅助工具

1、Chrome插件：Xpath Helper

1、打开/关闭：Ctrl + Shift + x

2、Firefox插件：Xpath checker

3、Xpath表达式编辑工具：XML Quire

3、Xpath匹配规则

1、匹配演示

1、匹配bookstore下所有节点：/bookstore

2、查找所有的book节点：//book

3、查找/bookstore下的book节点：/bookstore/book

4、查找所有book节点下的title节点中,lang属性值为 "en" 的节点： //book/title[@lang="en"]

5、查找bookstore下的第2个book节点下的title节点

/bookstore/book[2]/title/text()

2、选取节点

/ ：从根节点开始选取

//：从整个文档中查找节点

//price、/bookstore/book//price

@ ：选取某个节点

//div[@class="movie-info"]/a[@class="name"]

@ ：获取某个节点的属性值

获取所有book下的title节点的lang属性值

//book/title/@lang

3、匹配多路径

1、符号： |

2、获取所有book节点下的title节点和price节点

//book/title | //book/price

4、函数

1、contains()

匹配1个属性值中包含某个字符串的节点

所有的title节点中lang属性值包含"ch"的节点

//title[contains(@lang,"ch")]

2、text()

//title[contains(@lang,"ch")]/text()

lxml库及xpath使用

1、lxml库：HTML/XML解析库

1、Anaconda ：conda install lxml

2、Windows cmd：python -m pip install lxml

3、Ubuntu ：sudo pip3 install lxml

2、使用流程

1、导入模块：from lxml import etree

2、创建解析对象：parseHtml = etree.HTML(html)

3、调用xpath

r_list = parseHtml.xpath('xpath表达式')

4、如何获取节点对象的文本内容

节点对象名.text

抓取百度贴吧中所有帖子里的图片

import requests
from lxml import etree
import urllib.parse

class ImageSpider:
    def __init__(self):
        self.headers = {"User-Agent":"Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0)"}
        self.baseurl = ""
        
    # 获取所有帖子URL列表
    def getPageUrl(self,url):
        # 获取校花吧页面的html
        res = requests.get(url,headers=self.headers)
        res.encoding = "utf-8"
        html = res.text
        # 提取页面中所有帖子的URL
        parseHtml = etree.HTML(html)
        t_list = parseHtml.xpath('//div[@class="t_con cleafix"]/div/div/div/a/@href')            
        for t_link in t_list:
            t_url = "http://tieba.baidu.com" + t_link
            self.getImageUrl(t_url)
    
    # 获取每个帖子中图片的URL列表
    def getImageUrl(self,t_url):
        # 获取1个帖子的响应html
        res = requests.get(t_url,headers=self.headers)
        res.encoding = "utf-8"
        html = res.text
        # 从html响应中获取图片URL列表
        parseHtml = etree.HTML(html)
        img_list = parseHtml.xpath('//div[@class="d_post_content j_d_post_content  clearfix"]/img/@src')
        for img_link in img_list:
            self.writeImage(img_link)
      
    # 保存图片
    def writeImage(self,img_link):
        # 获取每个图片的二进制
        res = requests.get(img_link,headers=self.headers)
        res.encoding = "utf-8"
        html = res.content
        # 保存到本地(以图片链接的后12位作为文件名)
        filename = img_link[-8:]
        with open(filename,"wb") as f:
            f.write(html)
            print(filename,"下载成功")

    # 主函数
    def workOn(self):
        name = input("请输入贴吧名:")
        begin = int(input("请输入开始页:"))
        end = int(input("请输入结束页:"))
        for pn in range(begin,end+1):
            # 拼接贴吧页面URL
            pn = (pn-1)*50
            kw = {"kw":name}
            kw = urllib.parse.urlencode(kw)
            fullurl = \
              "http://tieba.baidu.com/f?" + \
              kw + "&pn=" + str(pn)
            # 直接调类内函数
            self.getPageUrl(fullurl)
                                 
if __name__ == "__main__":
    spider = ImageSpider()
    spider.workOn()

1、目标：指定贴吧的所有图片

2、思路

1、获取贴吧主页URL,下一页：找URL规律

2、获取1页中每个帖子的URL

['帖子链接1','','','']

3、For循环遍历2中列表,发请求,提取帖子中图片链接

["图片链接1","图片链接2","","",""]

4、For循环遍历3中列表,发请求,以wb方式保存本地

3、步骤

1、获取贴吧主页URL

http://tieba.baidu.com/f? + 查询参数

2、(xpath)提取页面中所有帖子的URL

src : 完整链接

href : 需要和主URL进行拼接

http://tieba.baidu.com + /p/5960551987

'//div[@class="t_con cleafix"]/div/div/div/a/@href'

3、匹配1个帖子中所有图片的URL

'//div[@class="d_post_content j_d_post_content clearfix"]/img/@src'

抓取百度贴吧中帖子里的视频和图片

import requests
from lxml import etree
import urllib.parse

class ImageSpider:
    def __init__(self):
        self.headers = {"User-Agent":"Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0)"}
        self.baseurl = ""
        
    # 获取所有帖子URL列表
    def getPageUrl(self,url):
        # 获取校花吧页面的html
        res = requests.get(url,headers=self.headers)
        res.encoding = "utf-8"
        html = res.text
        # 提取页面中所有帖子的URL
        parseHtml = etree.HTML(html)
        t_list = parseHtml.xpath('//div[@class="t_con cleafix"]/div/div/div/a/@href')       
        for t_link in t_list:
            t_url = "http://tieba.baidu.com" + t_link
            self.getImageUrl(t_url)
    
    # 获取每个帖子中图片的URL列表
    def getImageUrl(self,t_url):
        # 获取1个帖子的响应html
        res = requests.get(t_url,headers=self.headers)
        res.encoding = "utf-8"
        html = res.text
        # 从html响应中获取图片URL列表
        parseHtml = etree.HTML(html)
        img_list = parseHtml.xpath('//div[@class="d_post_content j_d_post_content  clearfix"]/img/@src | //embed/@data-video')
        for img_link in img_list:
            self.writeImage(img_link)
            
      
    # 保存图片
    def writeImage(self,img_link):
        # 获取每个图片的二进制
        res = requests.get(img_link,headers=self.headers)
        res.encoding = "utf-8"
        html = res.content
        # 保存到本地(以图片链接的后12位作为文件名)
        filename = img_link[-8:]
        with open(filename,"wb") as f:
            f.write(html)
            print(filename,"下载成功")

    # 主函数
    def workOn(self):
        name = input("请输入贴吧名:")
        begin = int(input("请输入开始页:"))
        end = int(input("请输入结束页:"))
        for pn in range(begin,end+1):
            # 拼接贴吧页面URL
            pn = (pn-1)*50
            kw = {"kw":name}
            kw = urllib.parse.urlencode(kw)
            fullurl = \
              "http://tieba.baidu.com/f?" + \
              kw + "&pn=" + str(pn)
            # 直接调类内函数
            self.getPageUrl(fullurl)
                                 
if __name__ == "__main__":
    spider = ImageSpider()
    spider.workOn()

1、视频xpath表达式

//div[@class="video_src_wrapper"]/div/video/@src

注意

1、xpath表达式在网页中可匹配但在程序中是空列表

1、User-Agent ：最好换为IE浏览器

2、把页面下载下来,再分析

案例：糗事百科-xpath

1、目标：用户昵称、段子内容、好笑数量、评论数量

2、步骤

1、找URL

https://www.qiushibaike.com/8hr/page/1/

2、xpath表达式

1、基准的xpath表达式(每个段子的节点对象)

//div[contains(@id,"qiushi_tag_")]

2、for element in [段子节点对象列表]:

用户昵称：'./div/a/h2'

段子内容：'.//div[@class="content"]/span'

好笑数量：'.//i'

评论数量：'.//i'

3、写代码

import requests
import pymongo
from lxml import etree

class QiushiSpider:
    def __init__(self):
        self.headers = {"User-Agent":"Mozilla/5.0"}
        # 连接对象
        self.conn = pymongo.MongoClient("localhost",
                                         27017) 
        # 库对象
        self.db = self.conn["Qiushi"]
        # 集合对象
        self.myset = self.db["qiushiinfo"]

    # 获取页面
    def getPage(self,url):
        res = requests.get(url,headers=self.headers)
        res.encoding = "utf-8"
        html = res.text
        self.parsePage(html)

    # 解析并存入数据库
    def parsePage(self,html):
        # 创建解析对象
        parseHtml = etree.HTML(html)
        # 获取每个段子的节点对象列表
        base_list = parseHtml.xpath('//div[contains(@id,"qiushi_tag_")]') 
        for base in base_list:
            # 节点对象可调用xpath
            # 用户昵称
            username = base.xpath('./div/a/h2')
            if len(username) == 0:
                username = "匿名用户"
            else:
                username = base.xpath('./div/a/h2')[0].text.strip()

            # 段子内容
            content = base.xpath('.//div[@class="content"]/span')
            # 好笑数量
            laughNum = base.xpath('.//i')[0] 
            # 评论数量
            pingNum = base.xpath('.//i')[1]

            d = {
                "username":username,
                "content":content[0].text.strip(),
                "laughNum":laughNum.text,
                "pingNum":pingNum.text
                }
            self.myset.insert(d)
            print("成功")


if __name__ == "__main__":
    spider = QiushiSpider()
    spider.getPage("https://www.qiushibaike.com/8hr/page/1/")

想要看更多的课程请微信关注SkrEric的编程课堂

Skr-Eric

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Skr-Eric的爬虫课堂（四）——爬虫的xpath工具、lxml库及xpath使用模块和爬取百度、糗百的案例

xpath工具(解析)1、xpath在XML文档中查找信息的语言,同样适用于HTML文档检索2、xpath辅助工具1、Chrome插件：Xpath Helper1、打开/关闭：Ctrl + Shift + x2、Firefox插件：Xpath checker3、Xpath表达式编辑工具：XML Quire...
复制链接

扫一扫