beautifulsoup获取属性_获取使用BeautifulSoup属性值

最新推荐文章于 2024-07-17 14:11:27 发布

weixin_39762838

最新推荐文章于 2024-07-17 14:11:27 发布

阅读量811

点赞数

文章标签： beautifulsoup获取属性

本文链接：https://blog.csdn.net/weixin_39762838/article/details/111527991

版权

I'm writing a python script which will extract the script locations after parsing from a webpage.

Lets say there are two scenarios :

and

I'm able to get the JS from the second scenario, that is when the JS is written within the tags.

But is there any way, I could get the value of src from the first scenario (i.e extracting all the values of src tags within script such as http://example.com/something.js)

Here's my code

#!/usr/bin/python

import requests

from bs4 import BeautifulSoup

r = requests.get("http://rediff.com/")

data = r.text

soup = BeautifulSoup(data)

for n in soup.find_all('script'):

print n

Output : Some JS

解决方案

It will get all the src values only if they are present. Or else it would skip that

from bs4 import BeautifulSoup

import urllib2

url="http://rediff.com/"

page=urllib2.urlopen(url)

soup = BeautifulSoup(page.read())

sources=soup.findAll('script',{"src":True})

for source in sources:

print source['src']

I am getting following two src values as result

http://imworld.rediff.com/worldrediff/js_2_5/ws-global_hm_1.js

http://im.rediff.com/uim/common/realmedia_banner_1_5.js

I guess this is what you want. Hope this is useful.

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_39762838

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Python爬虫入门8：BeautifulSoup获取html标签相关属性

老猿Python

01-30

3633

本节介绍了BeautifulSoup对象的主要属性，通过这些属性可以访问特定标签和内容。

22 BeautifulSoup类的find_all()方法的其他属性的用法

weixin_63986098的博客

07-09

3271

find_all()方法有6个参数：【参数1】name：接收tag名称。【参数2】attrs：参数接收属性的键值对字典。【参数3】**kwargs：接收变量赋值形式的属性。注意class后的下划线：`class_` 【参数4】text：接收文本信息。【参数5】limit：限制返回的标签数量。【参数6】recursive：是否获取子孙节点。 ...

参与评论您还未登录，请先登录后发表或查看评论

beautifulsoup获取属性_Python:BeautifulSoup-根据名称属性获取属性值 - python

weixin_39767513的博客

12-19

1637

我想根据属性名称打印属性值，例如我想做这样的事情soup = BeautifulSoup(f) //f is some HTML containing the above meta tagfor meta_tag in soup('meta'):if meta_tag['name'] == 'City':print meta_tag['content']上面的代码给出了一个KeyError: 'n...

用 beautifulsoup 提取属性值

wangbadan121的专栏

06-17

579

这段代码首先从HTML中查找包含`name="description"`的`<meta>`标签，并获取其`content`属性的值。2. **导入模块并解析HTML/XML**：使用`bs4`模块中的`BeautifulSoup`类来读取并解析HTML或XML文件。3. **提取属性值**：通过选择器找到目标元素，然后使用`get()`方法来获取特定属性的值。下面是一个完整的例子，展示了如何从HTML中提取`<meta>`标签的`content`属性值。-- 主要网页内容 --># 提取标题的文本内容。

bs4取值技巧的详细介绍

最新发布

weixin_43822401的博客

07-17

804

希望以上信息对您有所帮助！

beautifulsoup获取属性_Python：BeautifulSoup-根据名称属性获取属性值

weixin_29483277的博客

01-12

3599

Python：BeautifulSoup-根据名称属性获取属性值我想根据属性名称打印属性值，例如我想做这样的事情soup = BeautifulSoup(f) //f is some HTML containing the above meta tagfor meta_tag in soup('meta'):if meta_tag['name'] == 'City':print meta_tag[...

beautifulsoup获取属性_Python爬虫常用模块：BeautifulSoup

weixin_39648539的博客

12-29

588

BeautifulSoup用途 BeautifulSoup 借助网页的结构和属性等特性来解析网页，可以用它来方便地从网页中提取所需信息。 BeautifulSoup自动将输入文档转换为Unicode编码，输出文档转换为UTF-8编码。BeautifulSoup依赖于解析器它除了支持Python标准库中的HTML解析器外，还支持第三方解析器：用法示例在以下示例中，使用的均...

python3网络编程库_Python网络编程之BeautifulSoup库的使用（一）

weixin_39617044的博客

11-24

150

1 BeautifulSoup库简介BeautifulSoup是python的一个库，其提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简单，所以不需要多少代码就可以写出一个完整的应用程序。BeautifulSoup4和lxml一样，BeautifulSoup也是一个HTML/XML的解析器，主要的功能也是如何解析...

Python爬虫库BeautifulSoup获取对象(标签)名,属性,内容,注释

09-18

2. Tag的Name属性：每个Tag都有自己的名字，通过`.name`属性获取： ```python tag.name # 'b' ``` 我们还可以修改tag的名字： ```python tag.name = "blockquote" ``` 3. Tag的Attributes属性：获取和修改标签的属性...

python beautifulsoup模拟点击_Python爬虫丨BeautifulSoup实践

weixin_39618169的博客

12-03

1380

项目分析爬取的网站是下厨房，目标是固定栏目【本周最受欢迎】可以看到我们要爬取的/explore/不在禁止爬取的列表内1.先看下页面计划拿到的信息是：菜名、所需材料、和菜名所对应的详情页URL2.打开检查工具，在Elements里查看这个网页。3.点击开发者工具左上角的小箭头，然后选中一个菜名，那么Elements会自动标记出对应的代码。4.找到详情页URL的所在位置。其值是/recipe/1044...

【BeautifulSoup类的find_all()方法的其他属性的用法】

Lemon_rio的博客

11-03

1824

find用法和findall一模一样，但是返回的是找到的第一个符合条件的内容输出。注意find()方法返回的不是列表，而是一个单个元素对象，想要访问该对象的子元素就直接使用.contents[n]即可，不需要再添加下表。因为对于class是Python中的一个关键字，因此这里的class后要加一个下划线，即class_=‘sister3’。注意class后的下划线：class_而访问列表元素的下一级元素则使用：.contents[n]来访问（也是从0开始的）【参数2】attrs：参数接收属性的键值对字典。

python3爬虫获取html内容及各属性值的方法

12-31

今天用到BeautifulSoup解析爬下来的网页数据首先导入包from bs4 import BeautifulSoup 然后可以利用urllib请求数据记得要导包 import urllib.request 然后调用urlopen，读取数据 f=urllib.request.urlopen(‘http://jingyan.baidu.com/article/455a9950bc94b8a166277898.html‘) response=f.read() 这里我们就不请求数据了，直接用本地的html代码，如下注意：”’xxx”’是多行注释 #python3 from bs

python爬虫学习(一)：BeautifulSoup库基础及一般元素提取方法

weixin_30348519的博客

04-05

383

beautifulsoup详解

qh075的博客

09-30

2624

1，用CSS选择器时，标签名不加任何修饰，class类名前加. , id名前加#2，用到的方法是soup.select()，返回类型是list。3，多个过滤条件需要用空格隔开,严格遵守从前往后逐层筛选。

python -Beautiful Soup4库-笔记

qq_54802811的博客

05-25

678

是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.

beautifulsoup方法总结

weixin_66651900的博客

11-20

1131

find_all()和select()返回的都是列表list。获取标签属性和文本内容都需要先转成字符串str，通常使用for循环历遍。string方法获取的文本内容来自当前标签，该标签下其他标签的文本内容无法提取。get_text()方法可以提取该标签下所有文本内容。

利用BeautifulSoup的find_all()函数查找某个标签且该标签某属性不出现

陈广智的专栏

08-20

3545

介绍 HTML代码如下： <ul class="sf-r-list"> <li> <a href="/book/77" class="sc-list-cover fl"> <img class="ba_page_prvimg" onload="baImgCenter(this)" badt_outwidth="" src="https://wqxuetang.oss-cn-beijing.aliyuncs.com/cover/0/0/77/77.jpg!m"

网络爬虫基础——【BeautifulSoup】库详解

qq_41515916的博客

11-10

1310

网络爬虫基础——【BeautifulSoup】库详解

python 使用BeautifulSoup怎么获取属性值

04-26

使用BeautifulSoup获取属性值的基本语法如下： ```python soup.tag['attribute'] ``` 其中，`soup` 是一个 BeautifulSoup 对象，`tag` 是一个 HTML 标签，`attribute` 是该标签的属性名。例如，要获取一个带有 `...