python爬虫beautifulsoup实例-Python爬虫利器之Beautiful Soup实例测试

最新推荐文章于 2021-03-21 22:04:26 发布

weixin_37988176

最新推荐文章于 2021-03-21 22:04:26 发布

阅读量206

点赞数

# -*- coding: UTF-8 -*-

from bs4 import BeautifulSoup

import re

html_doc ="""

The Dormouse's story

The Dormouse's story

Once upon a time there were three little sisters; and their names were

Elsie,

Lacie and

Tillie;

and they lived at the bottom of a well.

...

"""

soup = BeautifulSoup(html_doc,'html.parser',from_encoding='utf8')

print "获取所有链接"

links = soup.find_all('a')

for link in links:

#link.name 节点的名字

#link['href'] 节点的href属性

#link.get_text() 节点的文本

print link.name,link['href'],link.get_text()

print "只获取含有lacie链接"

link_node = soup.find('a',href='http://example.com/lacie')

print link_node.name,link_node['href'],link_node.get_text()

print "正则匹配含有tillie链接"

link_node1 = soup.find('a',href=re.compile(r'tillie'))

print link_node1.name,link_node1['href'],link_node1.get_text()

print "获取p段落文字"

p_node = soup.find('p',class_="title")

print p_node.name,p_node.get_text()

输出结果：获取所有链接

a http://example.com/elsie Elsie

a http://example.com/lacie Lacie

a http://example.com/tillie Tillie

只获取含有lacie链接

a http://example.com/lacie Lacie

正则匹配含有tillie链接

a http://example.com/tillie Tillie

获取p段落文字

p The Dormouse's story

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_37988176

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python爬虫beautifulsoup实例-Python爬虫利器之Beautiful Soup实例测试

#-*-coding:UTF-8-*-frombs4importBeautifulSoupimportrehtml_doc="""TheDormouse'sstoryTheDormouse'sstoryOnceuponatimetherewerethreelittlesisters;andtheirnameswereE...
复制链接

扫一扫

[Python从零到壹] 六.网络爬虫之BeautifulSoup爬取作者个人博客网站详解

杨秀璋的专栏

02-17

1万+

前一篇文章讲述了BeautifulSoup技术，它是一个可以从HTML或XML文件中提取数据的Python库，一个分析HTML或XML文件的解析器，包括安装过程和基础语法。这篇文章将详细讲解 BeautifulSoup 爬取作者个人博客网站，通过案例的方式让大家熟悉Python网络爬虫，同时作者博客网站也是非常适合入门的案例，也能普及简单的预处理知识。希望对您有所帮助

python爬虫Beautiful Soup基础知识总结（附带实操案例）

WhyLW的博客

08-12

818

python爬虫之Beautiful Soup基础知识 Beautiful Soup是一个可以从HTML或XML文件中提取数据的python库。它能同过你喜欢的转换器实现惯用的文档导航，查找，修改文档的方式。需要注意的是，Beautiful Soup已经自动将输入文档转换为Unicode编码，输出文档转换为utf-8编码。因此在使用它的时候不需要考虑编码方式，仅仅需要说明一下原始编码方式就可以了。点击获取Python学习资料一、安装Beautiful Soup库使用pip命令工具安装Beautifu

参与评论您还未登录，请先登录后发表或查看评论

python爬虫（三）：BeautifulSoup 【6. 实例】

ant的博客

12-09

3029

爬取最好大学网的大学排名需要掌握的其它知识：（1）列表 list1=[1,2,3]，list1.append([3,4]) （2）format用法 .format 比 % 更好用，按位置替换，详细了解可以参考网址 https://blog.csdn.net/u014770372/article/details/76021988 （3）输出的格式 print("{}\t{:...

Python爬虫库BeautifulSoup的介绍与简单使用实例

python爬虫教程

03-13

1503

BeautifulSoup是一个可以从HTML或XML文件中提取数据的Python库，本文为大家介绍下Python爬虫库BeautifulSoup的介绍与简单使用实例其中包括了，BeautifulSoup解析HTML，BeautifulSoup获取内容，BeautifulSoup节点操作，BeautifulSoup获取CSS属性等实例一、介绍 BeautifulSoup库是灵活又方便的网页解析库...

检查BeautifulSoup是否安装正确

pySVN8A的博客

04-17

6382

输入命令 python进入到可以写程序的模式，然后输入：from bs4 import BeautifulSoup 如果没有报错，则说明安装成功！

Python爬虫包BeautifulSoup学习实例（五）

12-25

本文为大家分享了Python爬虫包BeautifulSoup学习实例，具体内容如下 BeautifulSoup 使用BeautifulSoup抓取豆瓣电影的一些信息。 # -*- coding: utf-8 -*- # @Author: HaonanWu # @Date: 2016-12-24 16:18:01 # @...

Python爬虫包BeautifulSoup实例（三）

01-20

一步一步构建一个爬虫实例，抓取糗事百科的段子先不用beautifulsoup包来进行解析第一步，访问网址并抓取源码 # -*- coding: utf-8 -*- # @Author: HaonanWu # @Date: 2016-12-22 16:16:08 # @Last Modified by: ...

python-beautifulsoup4-图片爬取-图片下载

最新发布

12-20

编程语言：python ...适合人群：本文适合于初学者，因为是综合了python、pyqt5、beautifulsoup4、requests、urllib等这些模块，所以可以在本例的基础进行扩展，比如由图片下载扩展为文本下载或者音频下载等

python爬虫实例——基于BeautifulSoup与urllib.request

08-12

本实例将深入探讨如何使用Python的BeautifulSoup库与urllib.request模块来实现一个基本的网页抓取功能。首先，`urllib.request`是Python标准库中的一个模块，用于处理URL相关的请求。在爬虫领域，它主要负责发起...

python用BeautifulSoup库简单爬虫实例分析

09-20

在这个简单的爬虫实例中，我们将了解如何使用BeautifulSoup和requests库来抓取网页内容并提取所需信息。首先，我们需要导入必要的库。在Python中，`requests`库用于发送HTTP请求，而`BeautifulSoup`库则负责解析...

python爬虫20个案例

03-25

讲诉python爬虫的20个案例。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。

Python强化知识之bs（二）

weixin_42272869的博客

02-07

636

BeautifulSoup库 BeautifulSoup4将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种: Tag NavigableString BeautifulSoup Comment Tag Tag通俗点讲就是HTML中的一个个标签它查找的是在所有内容中的第一个符合要求的标签。 from bs4 import BeautifulSoup file = open('./aa.html', 'rb') html = file.read() b

Python（应用）网页爬虫之BS4(Beautiful Soup)用法及案例

shammy_feng的博客

02-01

3992

一、Beautiful Soup BeautifulSoup库是灵活又方便的网页解析库，处理高效，支持多种解析器。利用它不用编写正则表达式即可方便地实现网页信息的提取。安装：pip3 install beautifulsoup4 解析库解析器使用方法优势劣势 Python标准库 BeautifulSoup(markup, “html.parser”) Python的内置标准库、执行速度适中、文档容错能力强 Python 2.7.3 or 3.2.2)前的版本中文容错能力差 l

BeautifulSoup-爬虫案例（一）

Bella_1987的博客

05-13

1342

Beatifulsoup 库使用

Python爬虫-BeautifulSoup

有关心情

06-13

1675

Python爬虫-BeautifulSoup Python爬虫-BeautifulSoup “美丽汤”的爱恨使用爱丽丝文档示例标签遍历 find(),findAll() 综合使用支持正则 CSS选择器 “美丽汤”的爱恨前边说偏爱xpath，在于操作简单，解析速度较快。但不可否认：BeautifulSoup比xpath稳定。但凡网页的标签顺序发生变化（增删改），...

python beautifulsoup4 table tr_python : BeautifulSoup 网页 table 抓取实例

weixin_39838302的博客

12-24

788

从 http://www.lottery.gov.cn/抓取体彩排列5 历史数据python 2.7 : get_pl5.py# -*- coding: utf-8 -*-import os,sysimport urllibimport urllib2from BeautifulSoup import BeautifulSoup# 体彩排列5URL = "http://www.lotter...

python 爬虫 beautifulsoup example 例子

fangwc的专栏

04-19

1613

今天第一次用python的beautifulsoup，虽然比较生疏，但还是爬下来了。爬的网站是：网站排行爬取的内容：包括网站的url, aleax排名，百度权重， PR等 import urllib2 import pandas as pd from bs4 import BeautifulSoup def urlprocess(url): u = url.replace('

爬虫基础（7）网页解析之Beautiful Soup库

Python达人

03-21

1271

文章目录一. Beautiful Soup库简介二. 安装beautifulsoup库三. Beautiful Soup库的四个对象类1. Tag2. NavigableString3. BeautifulSoup4. Comment四. Beautiful Soup库详析（一）解析器（二）创建Beautiful Soup对象（三）节点选择器1. 选择元素2. 提取信息3. 嵌套选择4. 关联选择（四）方法选择器1. 获取子节点与子孙节点（1）find_all()（2）find()2. 获取父节点与祖先节点

Python爬虫beautifulsoup4模块

05-05

604

Python爬虫beautifulsoup4模块一：beautifulsoup4模块介绍二：模块安装三：节点选择器四：方法选择器五：CSS选择器六：tag修改方法一：beautifulsoup4模块介绍 Beautiful Soup是python的一个HTML或XML的解析库，我们可以用它来方便的从网页中提取数据，它拥有强大的API和多样的解析方式。 Beautiful Soup的三个特点： ...

python爬虫beautifulsoup实例

09-22

Python爬虫包BeautifulSoup是一个用于解析和处理HTML和XML的库。它可以帮助开发者从网页中提取所需的数据，并进行进一步的处理和分析。使用BeautifulSoup库，你可以根据标签、类名、属性等方式来定位和提取网页中的...