Xpath的string(.)用法

最新推荐文章于 2024-09-26 12:03:15 发布

会飞的小窦娥

最新推荐文章于 2024-09-26 12:03:15 发布

阅读量5.1k

点赞数 10

分类专栏： Xpath 文章标签： python

本文链接：https://blog.csdn.net/qq_35944102/article/details/108201075

版权

Xpath 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

Xpath的string(.)用法

Xpath的text()与string(.)

我们在爬取网站使用Xpath提取数据的时候，最常使用的就是Xpath的text()方法，该方法可以提取当前元素的信息，但是某些元素下包含很多嵌套元素，

我们想一并的提取出来，这时候就用到了string(.)方法，但是该方法使用的时候跟text()不太一样，下面就举实例来讲解一下具体的区别。
实例网站：https://www.qiushibaike.com/text/page(页码)
列如
在这里插入图片描述

以这个段子为例，如果我们使用text()来拿取这个，会发现这一个段子竟然有多个text()信息，那么我们直接用text()来拿会怎么样呢？我们来看下结果

在这里插入图片描述
发现我们确实拿到了，可是我们却是拿到一个列表中的多个字符串，我们想合成一个还需要拼接，所以我们可以使用 string(.)，来看看效果

发现现在就是我们想要的结果了，因此当我们需要拿取嵌套节点的内容时候，使用string(.)方法效果更好

附上代码：

import requests
from fake_useragent import UserAgent
from lxml import etree

url = "https://www.qiushibaike.com/text/"

heardes ={
    'User-Agent':UserAgent().random
}

req =requests.get(url=url,headers=heardes)
html =etree.HTML(req.text)
item = html.xpath("//a[@class='contentHerf']/div[@class='content']/span[1]")
#获取每一个段子
for span in item:
    contents =span.xpath("string(.)")
    print(contents)

既然写到这里了就直接附上爬取整个网站的代码吧，网站比较简单，没事用来看看段子也还凑合

import requests
from threading import Thread
from queue import Queue
from fake_useragent import UserAgent
from lxml import etree


#爬取类
class Crawl_InIfo(Thread):

    def __init__(self,url_que,html_que):
        Thread.__init__(self)
        self.url_que =url_que
        self.html_que =html_que


    def run(self):

        headers ={
            "User-Agent" :UserAgent().random
        }

        while self.url_que.empty()==False:
            req = requests.get(url=self.url_que.get(),headers=headers)
            #
            if req.status_code == 200:
                # print(req.text)
                self.html_que.put(req.text)




#解析类
class PraseInFo(Thread):

    def __init__(self,html_que):
        Thread.__init__(self)
        self.html_que =html_que

    def run(self):
        while self.html_que.empty() ==False:
            e =etree.HTML(self.html_que.get())
            span_contents =e.xpath("//a[@class='contentHerf']/div[@class='content']/span[1]")
            author1 = e.xpath("//div[@class='author clearfix']/a[2]/h2/text()")
            #由于有的笑话比较长直接取文本不行
            for span ,author in zip(span_contents,author1):
                #格式化当前节点
                contents =span.xpath('string(.)')
                print(author,contents)

                with open('report.txt', 'a+', encoding='utf-8') as f:
                    f.write(author+'\n')
                    f.write(contents+'\n')






if __name__ == '__main__':
    # 存储url的容器
    url_que =Queue()
    #存储内容的容器
    html_que =Queue()
    for i in range(2,10):

        url = 'https://www.qiushibaike.com/text/page/{}/'.format(i)
        url_que.put(url)
        #创建一个爬虫
        # 生成3个线程
    crawl1_list =[]
    for i in range(0,3):
        crawl1 = Crawl_InIfo(url_que,html_que)
        crawl1_list.append(crawl1)
        crawl1.start()
    for crawl2 in crawl1_list:
        crawl2.join()
    print(html_que)
    parse =PraseInFo(html_que)

    parse.start()