Skr-Eric的爬虫课堂(四)——爬虫的xpath工具、lxml库及xpath使用模块和爬取百度、糗百的案例

xpath工具(解析)

  1、xpath

    在XML文档中查找信息的语言,同样适用于HTML文档检索

  2、xpath辅助工具

    1、Chrome插件 :Xpath Helper

      1、打开/关闭 :Ctrl + Shift + x

    2、Firefox插件 :Xpath checker

    3、Xpath表达式编辑工具 :XML Quire

  3、Xpath匹配规则

    1、匹配演示

      1、匹配bookstore下所有节点 :/bookstore

      2、查找所有的book节点 ://book

      3、查找/bookstore下的book节点 :/bookstore/book

      4、查找所有book节点下的title节点中,lang属性值为 "en" 的节点 : //book/title[@lang="en"]

      5、查找bookstore下的第2个book节点下的title节点

        /bookstore/book[2]/title/text()

    2、选取节点

      / :从根节点开始选取

      //:从整个文档中查找节点

          //price、/bookstore/book//price

      @ :选取某个节点

          //div[@class="movie-info"]/a[@class="name"]

      @ :获取某个节点的属性值

  获取所有book下的title节点的lang属性值

  //book/title/@lang

          <a src="http://kdjfladjl.jpg">

    3、匹配多路径

      1、符号 : |

      2、获取所有book节点下的title节点和price节点

        //book/title | //book/price

    4、函数

      1、contains()

        匹配1个属性值中包含某个字符串的节点

所有的title节点中lang属性值包含"ch"的节点

//title[contains(@lang,"ch")]

      2、text()

        //title[contains(@lang,"ch")]/text()

 

lxml库及xpath使用

  1、lxml库 :HTML/XML解析库

    1、Anaconda :conda install lxml

    2、Windows cmd:python -m pip install lxml

    3、Ubuntu   :sudo pip3 install lxml

  2、使用流程

    1、导入模块 :from lxml import etree

    2、创建解析对象 :parseHtml = etree.HTML(html)

    3、调用xpath

      r_list = parseHtml.xpath('xpath表达式')

    4、如何获取节点对象的文本内容

      节点对象名.text

 

抓取百度贴吧中所有帖子里的图片

import requests
from lxml import etree
import urllib.parse

class ImageSpider:
    def __init__(self):
        self.headers = {"User-Agent":"Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0)"}
        self.baseurl = ""
        
    # 获取所有帖子URL列表
    def getPageUrl(self,url):
        # 获取校花吧页面的html
        res = requests.get(url,headers=self.headers)
        res.encoding = "utf-8"
        html = res.text
        # 提取页面中所有帖子的URL
        parseHtml = etree.HTML(html)
        t_list = parseHtml.xpath('//div[@class="t_con cleafix"]/div/div/div/a/@href')            
        for t_link in t_list:
            t_url = "http://tieba.baidu.com" + t_link
            self.getImageUrl(t_url)
    
    # 获取每个帖子中图片的URL列表
    def getImageUrl(self,t_url):
        # 获取1个帖子的响应html
        res = requests.get(t_url,headers=self.headers)
        res.encoding = "utf-8"
        html = res.text
        # 从html响应中获取图片URL列表
        parseHtml = etree.HTML(html)
        img_list = parseHtml.xpath('//div[@class="d_post_content j_d_post_content  clearfix"]/img/@src')
        for img_link in img_list:
            self.writeImage(img_link)
      
    # 保存图片
    def writeImage(self,img_link):
        # 获取每个图片的二进制
        res = requests.get(img_link,headers=self.headers)
        res.encoding = "utf-8"
        html = res.content
        # 保存到本地(以图片链接的后12位作为文件名)
        filename = img_link[-8:]
        with open(filename,"wb") as f:
            f.write(html)
            print(filename,"下载成功")

    # 主函数
    def workOn(self):
        name = input("请输入贴吧名:")
        begin = int(input("请输入开始页:"))
        end = int(input("请输入结束页:"))
        for pn in range(begin,end+1):
            # 拼接贴吧页面URL
            pn = (pn-1)*50
            kw = {"kw":name}
            kw = urllib.parse.urlencode(kw)
            fullurl = \
              "http://tieba.baidu.com/f?" + \
              kw + "&pn=" + str(pn)
            # 直接调类内函数
            self.getPageUrl(fullurl)
                                 
if __name__ == "__main__":
    spider = ImageSpider()
    spider.workOn()

  1、目标 :指定贴吧的所有图片

  2、思路

    1、获取贴吧主页URL,下一页:找URL规律

    2、获取1页中每个帖子的URL

      ['帖子链接1','','','']

    3、For循环遍历2中列表,发请求,提取帖子中图片链接

      ["图片链接1","图片链接2","","",""]

    4、For循环遍历3中列表,发请求,以wb方式保存本地

  3、步骤

    1、获取贴吧主页URL

      http://tieba.baidu.com/f? + 查询参数

    2、(xpath)提取页面中所有帖子的URL

      src : 完整链接

      href : 需要和主URL进行拼接

      http://tieba.baidu.com + /p/5960551987

      '//div[@class="t_con cleafix"]/div/div/div/a/@href'

    3、匹配1个帖子中所有图片的URL

      '//div[@class="d_post_content j_d_post_content  clearfix"]/img/@src'

 

抓取百度贴吧中帖子里的视频和图片

import requests
from lxml import etree
import urllib.parse

class ImageSpider:
    def __init__(self):
        self.headers = {"User-Agent":"Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0)"}
        self.baseurl = ""
        
    # 获取所有帖子URL列表
    def getPageUrl(self,url):
        # 获取校花吧页面的html
        res = requests.get(url,headers=self.headers)
        res.encoding = "utf-8"
        html = res.text
        # 提取页面中所有帖子的URL
        parseHtml = etree.HTML(html)
        t_list = parseHtml.xpath('//div[@class="t_con cleafix"]/div/div/div/a/@href')       
        for t_link in t_list:
            t_url = "http://tieba.baidu.com" + t_link
            self.getImageUrl(t_url)
    
    # 获取每个帖子中图片的URL列表
    def getImageUrl(self,t_url):
        # 获取1个帖子的响应html
        res = requests.get(t_url,headers=self.headers)
        res.encoding = "utf-8"
        html = res.text
        # 从html响应中获取图片URL列表
        parseHtml = etree.HTML(html)
        img_list = parseHtml.xpath('//div[@class="d_post_content j_d_post_content  clearfix"]/img/@src | //embed/@data-video')
        for img_link in img_list:
            self.writeImage(img_link)
            
      
    # 保存图片
    def writeImage(self,img_link):
        # 获取每个图片的二进制
        res = requests.get(img_link,headers=self.headers)
        res.encoding = "utf-8"
        html = res.content
        # 保存到本地(以图片链接的后12位作为文件名)
        filename = img_link[-8:]
        with open(filename,"wb") as f:
            f.write(html)
            print(filename,"下载成功")

    # 主函数
    def workOn(self):
        name = input("请输入贴吧名:")
        begin = int(input("请输入开始页:"))
        end = int(input("请输入结束页:"))
        for pn in range(begin,end+1):
            # 拼接贴吧页面URL
            pn = (pn-1)*50
            kw = {"kw":name}
            kw = urllib.parse.urlencode(kw)
            fullurl = \
              "http://tieba.baidu.com/f?" + \
              kw + "&pn=" + str(pn)
            # 直接调类内函数
            self.getPageUrl(fullurl)
                                 
if __name__ == "__main__":
    spider = ImageSpider()
    spider.workOn()

  1、视频xpath表达式

    //div[@class="video_src_wrapper"]/div/video/@src

 

注意

  1、xpath表达式在网页中可匹配但在程序中是空列表

    1、User-Agent :最好换为IE浏览器

    2、把页面下载下来,再分析

 

案例 :糗事百科-xpath

  1、目标 :用户昵称、段子内容、好笑数量、评论数量

  2、步骤

    1、找URL

      https://www.qiushibaike.com/8hr/page/1/

    2、xpath表达式

      1、基准的xpath表达式(每个段子的节点对象)

 //div[contains(@id,"qiushi_tag_")]

      2、for element in [段子节点对象列表]:

           用户昵称 :'./div/a/h2'

   段子内容 :'.//div[@class="content"]/span'

   好笑数量 :'.//i'

   评论数量 :'.//i'

    3、写代码

import requests
import pymongo
from lxml import etree

class QiushiSpider:
    def __init__(self):
        self.headers = {"User-Agent":"Mozilla/5.0"}
        # 连接对象
        self.conn = pymongo.MongoClient("localhost",
                                         27017) 
        # 库对象
        self.db = self.conn["Qiushi"]
        # 集合对象
        self.myset = self.db["qiushiinfo"]

    # 获取页面
    def getPage(self,url):
        res = requests.get(url,headers=self.headers)
        res.encoding = "utf-8"
        html = res.text
        self.parsePage(html)

    # 解析并存入数据库
    def parsePage(self,html):
        # 创建解析对象
        parseHtml = etree.HTML(html)
        # 获取每个段子的节点对象列表
        base_list = parseHtml.xpath('//div[contains(@id,"qiushi_tag_")]') 
        for base in base_list:
            # 节点对象可调用xpath
            # 用户昵称
            username = base.xpath('./div/a/h2')
            if len(username) == 0:
                username = "匿名用户"
            else:
                username = base.xpath('./div/a/h2')[0].text.strip()

            # 段子内容
            content = base.xpath('.//div[@class="content"]/span')
            # 好笑数量
            laughNum = base.xpath('.//i')[0] 
            # 评论数量
            pingNum = base.xpath('.//i')[1]

            d = {
                "username":username,
                "content":content[0].text.strip(),
                "laughNum":laughNum.text,
                "pingNum":pingNum.text
                }
            self.myset.insert(d)
            print("成功")


if __name__ == "__main__":
    spider = QiushiSpider()
    spider.getPage("https://www.qiushibaike.com/8hr/page/1/")

 

 

 

 

想要看更多的课程请微信关注SkrEric的编程课堂

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值