网页爬取只获得单个标签的信息

最新推荐文章于 2023-01-09 10:46:53 发布

Nonino

最新推荐文章于 2023-01-09 10:46:53 发布

阅读量345

点赞数

文章标签： python

本文链接：https://blog.csdn.net/Nonino/article/details/108744840

版权

网页源代码为:

<dl>
	<dd><a href="/789654.html">第一章</a></dd><dd><a href="/234567.html">第二章</a></dd><dd><a href="/123456.html">第三章</a></dd>
</dl>

爬取代码为:

def parseLink(html):
    doc = pq(html)
    items = doc("dl")
    for item in items.items():
        print(item)
        yield {
            'page': item.find('a').attr('href')
        }

此时获得的内容为单个’href’.
多数情况是因为item的标签全部连在一块,需要分离标签.
即修改为:

for item in items.items('dd'):

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Nonino

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

python爬虫实例方法（批量爬取网页信息基础代码）

qq_29960631的博客

08-31

8217

文章目录前言一、爬虫实例0.爬取深圳租房信息1.爬取深圳算法岗位信息2.爬取猫图片（基于 selenium库模拟人自动点击）3.爬取小说纳兰无敌并生成词云二、用到的库1.正则表达式 re 库2.BeautifulSoup 库3.request库三、其他内容1、常用网址2、重要点3、爬虫三大步骤4、关于python的快速安装前言 8月31日爬虫笔记汇总，有不明白的欢迎提问交流。 #如有不当之处欢迎大佬指正# 提示：以下是本篇文章正文内容，下面案例可供参考一、爬虫实例 0.爬取深圳租房信息流程分析.

动态网页信息爬取

weixin_38394761的博客

11-09

2204

第一篇博客，以爬虫开头，虽然以前也学过爬虫，但是时间比较久，现在又重新捡起，今天谈谈动态网页信息的爬取。首先介绍一下爬取网页信息的基本思路：1.使用爬虫请求网页，获取网页的源代码 2.解析源代码，在源代码中找到自己想要的信息；3.若还有url地址，再次请求，重复1和2两个步骤。找到我们所要信息的url，而有些url并不是我们所要信息的真实url，查看源代码时不能找到所要的数据，这是因为这部分信...

参与评论您还未登录，请先登录后发表或查看评论

python爬不是网页_用python爬网站数据，为什么只爬到标签，爬不到标签内容呢

weixin_39624360的博客

12-05

236

问题我想爬电影票房的数据，网站是http://www.cbooo.cn/movieweek，我要爬网页最下面的【票房日期：2016-11-14至2016-11-20 单周票房：57271万单周场次：1463995场单周人次：1781万】这些数据，代码如下：from bs4 import BeautifulSoupimport urllib.requestz = input("请输入网址：")...

html 爬取标签获取,python beautifulsoup 对html 进行爬取分类（部分）

weixin_36200739的博客

06-18

295

html = '''The Domouse's storyThe Dormouse's storyOnce upon a time there were little sisters;and their names wereLacleandTillieand they lived at bottom of a well....'''from bs4 import BeautifulSoupsoup...

取指定html标签中的,利用PyQuery获取HTML指定标签内容_html/css_WEB-ITnose

weixin_31842821的博客

06-20

200

安装sudo pip install pyquery例子 from pyquery import PyQueryimport urllib2page = urllib2.urlopen("http://www.lzu.edu.cn")text = unicode(page.read(), "utf-8")doc = PyQuery(text)for event in doc('.r li'): ...

（爬取菜单信息）想要一次性获取标签的所有的东西时不需要find_all再一个个循环，直接text即可！！！！

Nurbiya_K的博客

03-17

846

爬取菜单信息的时候，想要获取所有食材时：网页源代码： 新鲜豌豆米、<a href="/category/580/" target="_blank">瘦肉</a>、生抽，盐，生粉 发现这里...

HTML获取指定标签下面指定标签/class内容

liu_131421的博客

01-09

1226

HTML获取指定标签下面指定标签/class内容

Python + selenium 爬取网页信息

weixin_46178557的博客

09-20

3862

最近需要从网页上找一些有用的信息，就简单用python爬了一下。网上方法有很多，request，BeautifulSoup，selenium，Scrapy等等。因为要爬的网站有的网站的数据为动态加载，这里我用selenium + ChromeDriver来获取页面数据。Selenium，适用于动态刷新网站

基于Scrapy的爬虫爬取京东商品信息与评论

Sleepy丶head的博客

07-30

6292

总体概述从京东搜索框搜索进入手机进入页面，爬取内容分成两类，一类是手机的基本信息（标题、价格、链接），另一类是评论信息（用户名、评论内容、评论总数等），将信息爬取下来之后，进行数据处理，以方便显示和查看的格式保存下来。

Python爬取中国大学MOOC课程信息

weixin_43108184的博客

06-02

5845

问题：获取中国大学MOOC平台的课程信息，包括开课学校、课程类别（标签）、课程名称、课程评分、评价人数和已参加课程人数。思路： 1.进入中国大学MOOC首页，点击“学校”，进入学校页面（可直接获取单个url） 2.获取页面上所有学校url,保存到列表中（当前页上有所有学校url） 3.依次进入学校页面，获取所有课程的url（不止一页，需要翻页操作） 4.进入课程页面，获取信息，存入列表需要注意的就是几处点击操作，以及准确找到和提取目标文本需要注意的就是几处点击操作，以及准确找到和提取目标文本那

使用BeautifulSoup爬取想要的标签（《python网络爬虫权威指南》笔记）

12-21

使用BeautifulSoup爬取想要的标签精确爬取标签BeautifulSoup中的find()和find_all()方法BeautifulSoup中的对象兄弟、子、父、后代标签的处理抓取子标签和其他后代标签抓取兄弟标签抓取父标签正则表达式正则表达式和BeautifulSoup获取属性Lambda表达式（匿名函数）精确爬取标签我们可以使用标签的CSS属性爬取择我们想要的一个或者多个标签，如class（类）属性、id属性、src属性等。为了方便演示标签的选择，我们使用书中作者特别准备好的爬虫演示网站为例（http://www.pythonscraping.com/pages/warand

【python】爬虫笔记-用xpath提取网页内容总是重复提取的解决

wangcles的博客

10-13

1967

提取网页中的每个标题，成功执行，但所有内容都是一样的 tree = etree.HTML(page_text) fp = open('58.txt','w',encoding='utf-8') li_list = tree.xpath('//section[@data-bottom="250"]/ul/li[@class="item-wrap"]') for li in li_list： title = li.xpath('//div[@class="tit

python3 爬虫面对如此多重复的标签，应该怎么爬才能爬到自己需要的信息

热门推荐

妖白的奇幻漂流世界

11-09

3万+

我们知道利用BeautifulSoup解析网页可以根据树以及各个标签来爬去，但是有个问题我们不能忽略，比如 1 BeautifulSoup 只要目标信息的旁边或者附近有标签就可以调用，，不用管是几层标签（父辈后代辈的都可以）。 Soup.html.body.h1 Soup.body.h1 Soup.html.h1 Soup.h1

Python 抓取html所有特定元素的方法

weixin_30533797的博客

06-21

483

直接上代码哦，够直接了吧~ from lxml import etree #import mechanize import lxml.html #import cookielib #br = mechanize.Browser() #r = br.open('http://yourdomain.com') #html = br.response().read() #root...

Python爬虫实战--（二）解析网页中的元素

晴空里的夏日雨

01-23

1万+

使用requests发送请求自己写selector 根据属性值筛选指定内容一对多关系的筛选爬取分页模拟手机端访问来抓取图片总结上一篇我们解析了本地的网页，而这一篇我们去解析真实的网络环境中的网页。目标：用Request + Beautifulsoup库爬取Tripadvisor网站的内容。 Tripadvisor的网址：https://www.tripadvisor.c

根据关键字爬取指定的网页数据

wzcyy2121的博客

03-26

9631

贴个网址算了：https://blog.csdn.net/u011330736/article/details/51906657

python爬取标签p内的数据_python进阶技巧，利用python爬取电影数据

weixin_39836860的博客

12-20

878

近年来随着国内电影市场的繁荣，电影评分及趋势分析成为一个热点研究课题，有很多人对其数据起伏投之以极大的热情。电影趋势分析可以通过用户对于不同电影类型评分的变化分析让影业公司了解到用户的喜好，有利于电影事业的发展.用python爬虫爬取豆瓣电影数据豆瓣电影上有很多关于每一部电影的信息，但豆瓣电影对数据爬虫的 IP 限制无法直接获取目标电影的全部数据，由于豆瓣网是一个具有反爬虫功能的网站，所以在做网络...

scrapy爬取标签里面的内容