python BeautifulSoup使用小记

最新推荐文章于 2023-11-17 14:24:40 发布

bubble_is_paopao

最新推荐文章于 2023-11-17 14:24:40 发布

阅读量695

点赞数 5

分类专栏： python 学习笔记文章标签： python BeautifulSoup

本文链接：https://blog.csdn.net/weixin_42697449/article/details/81639308

版权

python 学习笔记专栏收录该内容

2 篇文章

订阅专栏

python BeautifulSoup使用小记

注：最近在使用BeautifulSoup 进行HTML解析，记一笔~

一、BeautifulSoup一些用法规则

1.导入BeautifulSoup模块

from BeautifulSoup import BeautifulSoup

2.获取BeautifulSoup对象

soup=BeautifulSoup(str)

3.通过ID获取指定对象

soup.find(id='newscontent')  #返回id='newscontent'的第一个可匹配对象

soup.findAll(id='newscontent') #返回id='newscontent'的所有Tag以及NavigableString

4.通过class属性获取指定对象

soup.find(attrs={'class':'pagelink'}) #返回class='pagelink'的第一个可匹配对象

5.通过Tag获取指定对象

soup.find('em')   #<em>one</em>

soup.findAll('em') #获取所有的<em>标签

soup.findAll('em')[0] #获取所有<em>标签中的第一个<em>标签

#获取 与所有<em>标签中的第一个<em>标签并列的下面所有的<dd>标签
soup.findAll('em')[0].findAllNext('dd')

如果一个标签只有一个子节点且是字符串类型，这个子节点可以这样访问 tag.string，等同于tag.contents[0]的形式

soup.find('em').string      #<em>one</em> ->one

通过get()方法获取tag对应的属性值

soup.find('a').get('href') #<a href='http://cn.bing.com/'> </a> -> 'http://cn.bing.com/'

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

bubble_is_paopao

关注关注

5
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Python第一次爬虫实战小记之豆瓣Top250

u011236422的博客

12-20

605

一、网络爬虫概述网络爬虫（又称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。二、项目实施目标网站：豆瓣电影 Top 250 1.准备工作：制作一个爬虫之前，我们需要先了解爬虫的原理以及它的工作方式。我们要有一些HTML语言基础，了解HTTP请求方式（GET、POST等），根据自己的爬取需求（深层网页、表层网页）提前在浏览器中获取需要的头部...

python第二次采集数据小记

kfyzjd2008的博客

07-08

418

有些网页右键查看网页源代码，里面没有要查找的数据，这是为什么呢?答案是：页面是由JS动态生成出来的。但是在审查元素中Elements中是有的。解决方案是 python 有一个第三方库 Selenium 可以模拟浏览器第一步安装 Selenium 在 cmd 中打开python的Scripts目录。输入python 回车输入：pip install selenium 安

参与评论您还未登录，请先登录后发表或查看评论

python3中bs4的使用_【已解决】Python3中，已经安装了bs4（Beautifulsoup 4）了，但是却还是出错：ImportError: No module named Beautif...

weixin_39610366的博客

11-29

992

【问题】python脚本，其中用到Beautifulsoup：from BeautifulSoup import BeautifulSoup,Tag,CData;为了支持Python 3，所以去主页：然后去运行python脚本，结果却还是出错：Traceback (most recent call last):File "G:\34563264_data_from_site\34563264_da...

from beautifulsoup4 import BeautifulSoup 报错

studyvcmfc的专栏

01-11

546

>>> from beautifulsoup4 import BeautifulSoup Traceback (most recent call last): File "<stdin>", line 1, in <module> ModuleNotFoundError: No module named 'beautifulsoup4' 解决方...

Python3实践日记：安装了BeautifulSoup后，import还是报错

weixin_43834228的博客

04-17

785

问题：安装了BeautifulSoup后，import还是报错使用各种from BeautifulSoup import * 还是import BeautifulSoup都不能行依然报错：ModuleNotFoundError: No module named ‘BeautifulSoup’ 解决方法使用语句：from bs4 import BeautifulSoup 这样就可以了...

python中beautifulsoup的作用,python中的BeautifulSoup模块

weixin_39837607的博客

03-25

176

最近在看python代码的时候遇到了BeautifulSoup模块，查阅相关资料如下：python中的是用Python写的一个HTML/XML的解析器，它可以很好的处理不规范标记并生成剖析树(parse tree)。它提供简单又常用的导航(navigating)，搜索以及修改剖析树的操作。它可以大大节省你的编程时间。对于Ruby，使用。1.Beautiful Soup的下载和安装下载地址：推...

python 解析html之BeautifulSoup

12-23

复制代码代码如下:# coding=utf-8 from BeautifulSoup import BeautifulSoup, Tag, NavigableString from SentenceSpliter import SentenceSpliter from os.path import basename,dirname,isdir,isfile from os import makedirs from shutil import copyfile import io import time import re class build_tpl: def __init__(s

Python简单的爬取网页信息并生成json文件与乱码解决小记

Yilo的博客

04-02

2195

以前写的一个Python小程序，以前是放在笔记中的，现搬到这来。因为Android开发需要一些数据，自己写了一个小小的Python程序来抓取数据。过程可谓一波三折，主要是Python的字符串编码问题，在这记录一下。

Beautifulsoup4学习笔记

Dream It Possible

12-20

4570

beautifulsoup4学习小记 pip安装pip install beautifulsoup4或easy_installeasy_install beautifulsoup4或源码安装python setup.py installBeautifulSoup除了内置HTML解析器，还支持一些第三方解析去，比如html5lib,lxml等，可以安装之后，在初始化BeautifulSoup对象的时

NewWeiboSpider：Python微博数据抓取与代理池应用

标签“Python”表明该项目是使用Python编程语言开发的。Python因其简洁的语法和强大的库支持，常被用来开发爬虫程序。 #### 压缩包子文件名解析文件名称“NewWeiboSpider-dev”暗示这是一个开发阶段的版本，通常...

关于soup.find 和 soup.select 的使用

最新发布

quhaoyang123的博客

11-17

678

获取网站视频f.close()

python中的beautiful_在Python中使用BeautifulSoup解析数据

weixin_29688535的博客

01-29

219

我试图使用BeautifulSoup解析DOM树并提取作者的名字。下面是一段HTML代码，它显示了我要擦掉的代码的结构。Authors:Dacheng Lin,Ronald A. Remillard,Jeroen HomanAuthors:A.G. Kosovichev我的困惑在于，当我执行soup.find时，它会找到我正在搜索的div标记的第一个匹配项。之后，我搜索所有的“a”链接标签。在此阶...

Beautiful Soup 中文文档

nciaebupt

11-01

2595

原文 by Leonard Richardson (leonardr@segfault.org) 翻译 by Richie Yan (richieyan@gmail.com) ###如果有些翻译的不准确或者难以理解，直接看例子吧。### 英文原文点这里 Beautiful Soup 是用Python写的一个HTML/XML的解析器，它可以很好的处理不规范标记并生成剖析树(pa

python3与Beautiful Soup库

清风不识字12138的博客

10-18

631

BeautifulSoup库主要用于处理HTML和XML格式的文件，常用于网络爬虫。但是BeautifulSoup库的3版本已不再更新，所以现在主要来说下4版本及之后的版本。首先是安装：安装文件在这里：使用pip 安装4版本时要注意应该用pip install bs4然后就是库的引用格式的改变： 3版本：from BeautifulSoup import BeautifulSoup

Python3 Learning(四） from bs4 import BeautifulSoup报错

我知道你很急,但是路要一步步走

01-23

3394

ma的，老子百度一个小时，狗东西答案都是大同小异的，你们倒是试了没啊，报错倒是解决了吗，我真他ma日了哈士奇了下面给出我自己摸索出来的正确的解决方案：第一种方法：环境 mac + pycharm2018.3 community版 ok，重启一下,完美，GameOver 第二种方法，如果上面方法还是不行的话：清空无效的缓存 ...

from bs4 import BeautifulSoup 报错

weixin_30319097的博客

01-09

4204

导入BeautifulSoup，出现下面错误（两种）：第一种错误： Python 2.7.14 (default, Sep 17 2017, 18:50:44) [GCC 7.2.0] on linux2Type "help", "copyright", "credits" or "license" for more information.>>> from bs4 imp...

BeautifulSoup安装以及一些错误