python网络数据采集学习笔记（二）

最新推荐文章于 2024-09-11 18:01:31 发布

Nyte2018

最新推荐文章于 2024-09-11 18:01:31 发布

阅读量480

点赞数

文章标签： python 网络数据采集爬虫

本文链接：https://blog.csdn.net/Nyte2018/article/details/88761489

版权

本文详细介绍了Python的BeautifulSoup库在复杂HTML解析中的应用，包括find()和findAll()方法的使用，以及其他BeautifulSoup对象的介绍，如Tag、NavigableString和Comment。还探讨了导航树的概念，讲解如何通过标签位置查找信息。

摘要由CSDN通过智能技术生成

今天看第二章：复杂html解析
上次的学习笔记链接：https://blog.csdn.net/Nyte2018/article/details/88713447
前两天看了慕课上的html和css入门，对于大致结构有所了解，有助于学习爬虫。

先来看代码1：

from urllib.request import urlopen
from bs4 import BeautifulSoup
html = urlopen("http://www.pythonscraping.com/pages/warandpeace.html")
bsObj = BeautifulSoup(html,"html.parser")
nameList = bsObj.findAll("span", {
   "class":"green"})
for name in nameList:
    print(name.get_text())

代码1的作用是输出http://www.pythonscraping.com/pages/warandpeace.html这个网站上所有人物名称。
先来看一下这个网站的页面和源码：
在这里插入图片描述

<html>
<head>
<style>
.green{
    
	color:#55ff55;
}
.red{
    
	color:#ff5555;
}
#text{
    
	width:50%;
}
</style>
</head>
<body>
<h1>War and Peace</h1>
<h2>Chapter 1</h2>

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Nyte2018

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

《python网络数据采集》读书笔记

生息之地

07-30

4061

《python网络数据采集》读书笔记标签（空格分隔）： python 爬虫读书笔记花了三天时间看了一遍，将我认为值得记下的内容记录了下来。推荐购买。第一部分创建爬虫重点介绍网络数据采集的基本原理。 * 通过网站域名获取HTML数据 * 根据目标信息解析数据 * 存储目标信息 * 如果有必要，移动到另一个网页重复这一过程第1章初见网络爬虫 from url...

Python网络数据采集读书笔记

新起点

10-05

323

1.网络爬虫 • 通过网站域名获取 HTML 数据 • 根据目标信息解析数据 • 存储目标信息 • 如果有必要，移动到另一个网页重复这个过程 2.每当你调用 BeautifulSoup 对象里的一个标签时，增加一个检查条件保证标签确实存在是很聪明的做法。 3.在写爬虫的时候，思考代码的总体格局，让代码既可以捕捉异常又容易阅读，这是很重要的。如果你还希望能够很大程度地重...

参与评论您还未登录，请先登录后发表或查看评论

Python网络数据采集学习笔记1

无形的风专栏

04-05

1455

学习笔记第一章初识网络爬虫使用的python版本 python3.5，解析的库是BeautifulSoup、lxml 。如果系统中的python只有一个版本，安装好python控制包pip，然后安装依赖包安装方式为：pip install BeautifulSoup lxml如果系统中存在两种版本的python，那么安装命令为：python3.5 -m pip install Beautifu

慕课网《Python遇见数据采集》学习过程笔记【1】（这个视频不适合我，终断）...

weixin_30294709的博客

08-10

103

一. 二.windows如何安装beautifulsoup4? 打开命令行输入： pip install beautifulsoup4 pip3 install beautifulsoup4 检查是否安装成功在命令行中输入python进入python编程环境再输入from bs4 import BeautifulSoup 看是否报错，如果没有那么安装成功三.urllib的用法...

《Python网络数据采集》读书笔记（一）

weixin_34344677的博客

03-28

154

思考“网络爬虫”时通常的想法：• 通过网站域名获取 HTML 数据• 根据目标信息解析数据• 存储目标信息• 如果有必要，移动到另一个网页重复这个过程当网络浏览器遇到一个标签时，比如<img src="cuteKitten.jpg">，会向服务器发起另一个请求，以获取cuteKitten.jpg文件中的数据为用户充分渲染网页。但是，我们的Python程序没有返回并...

python网络数据采集学习笔记（一）-附件资源

03-05

python网络数据采集学习笔记（一）-附件资源

python网络数据采集学习笔记（一）

Nyte2018的博客

03-21

1228

目前python已成为主流编程语言之一，在我们这个年纪多学一点知识总是好的，感觉自己经常碌碌无为平庸而过，研究生生活虽然不精彩，但是自己不能放弃自己。以后我会每天自己学一些新的内容，然后发学习笔记作为勉励自己的见证，欢迎大家一起努力。 python之前学过一点基础，看的是《Python编程：从入门到实践》，百度云链接：链接: https://pan.baidu.com/s/1CL7qy7fSmcj...

『python学习』python 网络数据采集笔记

L聪记博客

07-28

1160

1、如果你用过 Python 2.x 里的 urllib2 库，可能会发现 urllib2 与 urllib 有些不同。在 Python 3.x 里， urllib2 改名为 urllib 2、.get_text() 会把你正在处理的 HTML 文档中所有的标签都清除，然后返回一个只包含文字的字符串

《python网络数据采集》简读

weixin_49374896的博客

03-11

302

《python网络数据采集》简读对本书的认识和看法这本书主要讲解的是利用python进行网络数据采集，由于本书原版是15年出版，而这几年python3第三方库也经历了不小的发展，书上提到的一些技术在现在已经不太适用。不过本书内容生动且丰富，可以作为一本不错的爬虫入门书。主要内容因为我之前对爬虫已经有过一些学习，所以介绍本书内容时会根据我的认识那个进行重新的整理。网络连接客户端（浏览器）

python网络爬虫——数据采集

xlsj雪松的博客

08-06

737

前言：之所以叫网络爬虫（Web crawler）是因为它们可以沿着网络爬行。它们的本质就是一种递归方式。为了找到 URL 链接，它们必须首先获取网页内容，检查这个页面的内容，再寻找另一个 URL，然后获取 URL 对应的网页内容，不断循环这一过程。 1 遍历单个域名示例：写一段获取维基百科网站的任何页面并提取页面链接的 Python 代码 from urllib.request im...

BeautifulSoup用法详解

why_cant_i_change的博客

11-03

400

注：本文代码以网站http://www.pythonscraping.com/pages/page3.html为例 1.获取网页HTML内容，传到BeautifulSoup对象。 import requests from bs4 import BeautifulSoup url = 'http://www.pythonscraping.com/pages/page3.html' respon...

python数据采集6-读取文档

大数据精读周刊

11-21

1455

文章目录python数据采集6-读取文档文档编码纯文本CSVPDF微软Word和.docx python数据采集6-读取文档有种观点认为，互联网基本上就是那些符合新式 Web 2.0 潮流，并且经过多媒体内容点缀的 HTML 网站构成的集合，这些内容在网络数据采集时几乎都是要被忽略的。但是，这种观点忽略了互联网最基本的特征：作为不同类型文件的传输媒介。虽然互联网在 20 世纪 60 年代末...

蒙特卡罗方法——布丰投针实验近似计算圆周率python代码实现

2301_79376014的博客

09-09

493

蒙特卡罗——布丰实验

pip-tools：打造可重复、可控的 Python 开发环境，解决依赖关系，让代码更稳定

weixin_53707653的博客

09-09

833

是一个强大且易用的工具，可以帮助开发者轻松管理 Python 项目的依赖关系，确保代码的可重复性和稳定性。是一组命令行工具，旨在简化 Python 依赖关系的管理，确保项目环境的稳定性和可重复性。可以确保每次构建环境时都使用相同的依赖项版本，从而避免由于依赖项版本不一致导致的错误，提高代码可重复性和稳定性。自动化了依赖关系管理过程，节省了开发者的时间和精力，可以将更多时间投入到实际的开发工作中。文件中的信息，更新虚拟环境，安装、升级或卸载所需的软件包，确保虚拟环境与。命令可以从你的项目配置文件中生成。

Python实现多线程、多进程及协程

qq_42568323的博客

09-09

1078

本文详细介绍了 Python 中多线程、多进程和协程的并发模型及其实现方式，并通过具体场景演示了如何使用面向对象思想实现这些模型。在实际应用中，应根据任务的类型和需求选择合适的并发模型，从而优化程序的性能和资源利用率。本文将详细介绍 Python 中的多线程、多进程和协程的概念及其实现方式，并通过具体场景展示如何在 Python 中使用面向对象的思想实现这些并发模型。接下来，我们通过一个计算密集型任务的示例来演示多进程的实现：计算一系列大数字的阶乘。主程序中创建并启动了多个计算进程，并使用。

[Python]生成器和yield关键字

weixin_57336987的博客

09-07

442

概述: 它指的是 generator, 类似于以前学过的: 列表推导式, 集合推导式, 字典推导式…作用: 降低资源消耗, 快速(批量)生成数据.实现方式: 1.推导式写法. 2.yield写法.yield i # yield会记录每个生成的数据, 然后逐个的放到生成器对象中, 最终返回生成器对象.问题: 如何从生成器对象中获取数据? 答案: 1.for循环遍历 2.next()函数, 逐个获取.

Django-Celery-Flower实现异步和定时爬虫及其监控邮件告警