页面爬取小知识点

最新推荐文章于 2024-03-27 14:34:04 发布

会编程的漂亮小姐姐

最新推荐文章于 2024-03-27 14:34:04 发布

阅读量273

点赞数

分类专栏： Python 学习总结

本文链接：https://blog.csdn.net/u014229742/article/details/81624374

版权

Python 同时被 2 个专栏收录

171 篇文章 2 订阅

订阅专栏

学习总结

115 篇文章 0 订阅

订阅专栏

1.extract()获取的是列表，后面加上索引取得是列表中某个值

#li.xpath('a/@href').extract()返回结果是列表
first_url = 'http://jbk.39.net' + li.xpath('a/@href').extract()[0]

2.如何获取到整个页面的标签

#获取到的是html页面
cause_link = response.xpath("//*[@class='intro']").extract()

# #获取到的是html页面
# cause_link = response.xpath("//*[@class='intro']").extract()
# cause_link2 = response.xpath("//*[@class='info']").extract()
# cause_link3 = response.xpath("//*[@class='art-box']").extract()

 # 需要获取文字
cause_link2 = response.xpath('/html/body/section/div[3]/div[1]/div/div[2]/p/text()').extract()

3.如何将列表转换为字符串

# 获取病因中的内容
item['cause'] = response.xpath('/html/body/section/div[3]/div[1]/div/div[2]/p/text()').extract()
# 将获取到的对白内容转换为字符串
str1 = ''.join(item['cause'])  # convert list to string
# 同样的将单个单引号转换为'',单引号在mysql执行时容易出错
item['cause'] = str1.replace("'", "''")

4.Request

def parse(self, response):
    li_list = response.xpath('//*[@id="mainBox"]/main/div[2]/div')

    for xq in li_list:
        #通过XymcsdnItem创建一个新的item
        item = XymcsdnItem()
        item_list = xq.xpath('h4/a/text()').extract()
        #有时获取的链接是空的
        if len(item_list) > 0:
            item['title'] = item_list[1].strip()
                url = xq.xpath('h4/a/@href').extract()[0]
           #通过request或者Scrapy.request将url和item传到下一级函数中，callback来调用下一级函数
            yield Request(url, meta={'item': item}, callback = self.parse_detail)

item = response.meta['item']  # get the item from before (Request)
# item = Jb39Item()# use function to create a new item

会编程的漂亮小姐姐

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录