菜谱url的爬取:url_info = each.xpath(“a/@href“).extract()[0]

最新推荐文章于 2023-09-26 12:04:57 发布

small_Dr

最新推荐文章于 2023-09-26 12:04:57 发布

阅读量684

点赞数

分类专栏：菜谱爬取文章标签： python 爬虫

本文链接：https://blog.csdn.net/small_Dr/article/details/121462693

版权

菜谱爬取专栏收录该内容

2 篇文章 0 订阅

订阅专栏

先找到做法的链接在网页源代码的位置

<div class="listtyle1">
			<a target="_blank" href="http://www.meishij.net/zuofa/ganbiansijidou_37.html" title="干煸四季豆" class="big">

xpath，item['url_info']

for each in response.xpath("//div[@class='listtyle1']"):
	url_info = each.xpath("a/@href").extract()[0]

	item['url_info']= url_info

这边的xpath最好直接就加上.extract()[0]这样链接就不会被识别成list

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

small_Dr

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

python爬虫数据解析xpath解析详细讲解——附有详细案例

getture的博客

11-05

4万+

1.什么是xpath 菜鸟教程这么解释的 XPath 使用路径表达式在 XML 文档中进行导航 XPath 包含一个标准函数库 XPath 是 XSLT 中的主要元素 XPath 是一个 W3C 标准百度百科这么解释的是一种用来确定XML文档中某部分位置的语言是最常用的最广泛的数据解析方式 2.xpath解析原理 ①实例化一个etree的对象，且需要将被解析的页面源码数据加载到该对象中 ②调用etree对象中的xpath方法结合着xpath表达式实现标签的定位和内容的捕获 3.环境的安装 pi

python中xpath如何获取内容_python requests + xpath 获取分页详情页数据存入到txt文件中...

weixin_39782573的博客

12-17

289

直接代码，如有不懂请加群讨论# *-* coding:utf-8 *-* #import jsonimport requestsimport pytesseractimport timeimport datetimefrom PIL import Imagefrom bs4 import BeautifulSoupimport urllib3import randomimport osfrom ...

参与评论您还未登录，请先登录后发表或查看评论

爬虫2-Xpath

weixin_45569078的博客

04-23

176

2.2 学习xpath 2.2.1 学习目标：学习xpath，使用lxml+xpath提取内容。使用xpath提取丁香园论坛的回复内容。抓取丁香园网页：http://www.dxy.cn/bbs/thread/626626#626626 。 2.2.2 Xpath常用的路径表达式： XPath即为XML路径语言（XML Path Language），它是一种用来确定XML文...

php 使用pathinfo(), parse_url(), basename()解析URL

weixin_34080903的博客

10-08

175

本文章向大家介绍解析URL的三种方法，分别为pathinfo()方法、parse_url()方法和basename()方法。每个方法都列举了一个实例，通过实例更容易理解这三个函数的使用方法和技巧，需要的朋友可以参考一下。 1、利用pathinfo解析URL <? /* by www.manongjc.com/article/1119.html */ $test...

Xpath使用实例和需要注意的事项

子敬的技术博客

12-11

1150

Xpath使用实例和需要注意的事项 Xpath的语法介绍就不赘述了，参考：https://blog.csdn.net/u011486491/article/details/84061432 这篇文章就以实际使用为例，对一些xpath比较复杂的情况进行讨论使用。常用的标签提取字段 <li class="tjqyList-content"> <div class=...

scrapy xpath空列表_「scrapy爬虫实战」王者荣耀全部英雄信息爬取

weixin_35308770的博客

01-25

370

王者荣耀英雄信息爬取分析入口页面地址https://pvp.qq.com/web201605/herolist.shtml第一步获取所有英雄的列表可以看到英雄列表是在源码中可以被找到的第二步获取英雄的各种信息英雄的基本信息放在一个class = "cover"的div中我们主要采集英雄的名称和技能介绍技能部分都在 class=" zk-con3 zk-con" 中中的 ul中image-...

xpath爬虫_python爬虫全套教程（十四）--案例：使用XPath的爬虫

weixin_39578197的博客

12-13

136

案例：使用XPath的爬虫现在我们用XPath来做一个简单的爬虫，我们尝试爬取某个贴吧里的所有帖子，并且将该这个帖子里每个楼层发布的图片下载到本地。#coding=utf-8 import requests from lxml import etree import json class Tieba: def __init__(self,tieba_name): sel...

import scrapy from scuw.items import ScuwItem class DushuSpider(scrapy.Spider): name = "dushu" allowed_domains = ["www.dushu.com"] start_urls = ["https://www.dushu.com/lianzai/"] def parse(self, response): print('=================') li_list = response.xpath('//div[@class="bookslist"]//div[@class="book-info"]') for li in li_list: name = li.xpath('.//a/text()').extract_first() href = li.xpath('.//a/@href').extract_first() url = "https://www.dushu.com"+href yield scrapy.Request(url=url, callback=self.response_second, meta={'name': name}) def response_second(self, response): src = response.xpath('//div[@class="bookdetails-left"]//div[@class="pic"]/img/@src').extract_first() name = response.meta['name'] data = ScuwItem(src=src, name=name) yield data

06-09

href = li.xpath('.//a/@href').extract_first() url = "https://www.dushu.com"+href yield scrapy.Request(url=url, callback=self.response_second, meta={'name': name}) ``` 在这个方法中，首先打印了一条...

import scrapy from ychouse.items import YchouseItem # 导入item class EsfSpider(scrapy.Spider): name = "esf" allowed_domains = ["allowdomians"] start_urls = ["https://fc.cqyc.net/resoldhome/esf/list"] def parse(self, response): lilist = response.xpath('/html/body/div[6]/div[3]/ul/li') # print(lilist) for li in lilist: item = YchouseItem() #实例化item item["title"] = li.xpath('./div[2]/p[1]/a/text()').extract_first() item['href'] ='https://fc.cqyc.net' + li.xpath('./div[2]/p[1]/a/@href').extract_first() item['housetype'] = li.xpath('./div[2]/p[2]/span[1]/text()').extract_first() item['floor'] = li.xpath('./div[2]/p[2]/span[2]/text()').extract_first() # print(item) yield scrapy.Request(item['href'],callback=self.parseinfo,meta={'item':item}) #翻页 # next_url = 'https://fc.cqyc.net' + response.xpath('//span[@class="next-page"]/../@href').extract_first() # if next_url != response.url: # yield scrapy.Request(url=next_url,callback=self.parse) pass def parseinfo(self,response): item = response.meta['item'] item['houseimg']= response.xpath('/html/body/div[4]/div/div[3]/div[2]/ul/li[1]/img/@src').extract_first() print(item)

06-10

这段代码是使用Scrapy框架爬取重庆房产网的二手房列表信息，并且获取每个房源的详情页链接，然后进入详情页爬取更详细的房源信息。其中，使用了XPath语法来解析HTML页面，将解析得到的信息存储到自定义的Item对象中...

使用xpath的@class=""以及@href等属性爬取最新经济学人blogs、news. etc

Lockey23的博客

05-05

3902

使用xpath的@class=""以及@href等属性爬取最新经济学人blogs、news； python re，urllib.request；lxml import etree；random，requests ；time；os；经济学人最新文章爬取；The Economist

关于xpath选择器tips

wtftx的博客

05-07

166

from scrapy.selector import Selector text = ''' <html><body> <div> <ul> <li class="item-0"><a href="link1.html">first</a></li> <...

Python网页爬虫爬取豆瓣Top250电影数据——Xpath数据解析

最新发布

qq_44777595的博客

09-26

5万+

本次程序只爬取了豆瓣top250电影的展示页面的数据，没有爬取电影详情页的数据。在前面我们已经获取了每一部电影详情页的链接links，如果想要爬取电影的详情页，可以通过for循环遍历列表links，对每一个详情页发起请求，从而获取电影详情页的数据并进行解析。

XPath与多线程爬虫

少点套路，多点诚意

06-04

2131

一、神器XPath的介绍与配置 1 XPath是什么？ XPath，即XML路径语言（XML Path Language），是确定XML文档中某位置的语言，基于XML的树状结构，提供在数据结构树中寻找节点的能力。简言之，XPath是一门语言，可以在XML文档中查找信息，支持HTML，通过元素和属性进行导航； XPath用以提取信息，类似于正则表达式，但比正则表达式厉害、简单，因为使用正则

[Python]网络爬虫（四）：Opener与Handler的介绍和实例应用

thewebcode

05-14

477

在开始后面的内容之前，先来解释一下urllib2中的两个个方法：info and geturl urlopen返回的应答对象response(或者HTTPError实例)有两个很有用的方法info()和geturl() 1.geturl()：这个返回获取的真实的URL，这个很有用，因为urlopen(或者opener对象使用的)或许会有重定向。获取的URL或许跟请求URL不同。以人人中...

python中的xpath语法

Nakisha的博客

06-15

551

import parsel html_str = ''' <div> <ul> <li class = "item-1"> <a href = "link1.htm1">第一个</a> </li> <li class = "item-2">

爬虫 XPath

这个博客,写给十年后的自己......

01-19

9279

安装 pip install lxml 这样应该是装不上的，去手动吧 Error：ImportError: DLL load failed: %1 不是有效的 Win32 应用程序。这个是因为你安装了64位的python，然后安装32位的模块，或者你安装了32位的python，然后安装64位的模块先确定自己的python是是多少位下载对应的模块就对啦