python爬虫学习笔记1

最新推荐文章于 2024-10-14 09:08:48 发布

Championers

最新推荐文章于 2024-10-14 09:08:48 发布

阅读量406

点赞数 1

文章标签： python 爬虫学习

本文链接：https://blog.csdn.net/Championers/article/details/124636962

版权

本文是Python爬虫学习的第一部分，介绍了如何使用BeautifulSoup解析HTML，包括常用方法如find_all、find等。接着讲解了Selenium库在动态网页爬取中的应用，以及设置隐式等待、页面元素操作等。最后提到了数据存储的基本方法，如使用json库进行数据格式化和文件操作。

摘要由CSDN通过智能技术生成

前置准备：

需要安装相应的库，下面的库都是可能会用到的:
requests库：

pip install requests

selenium库：

pip install selenium

BeautifulSoup4库：

pip install BeautifulSoup4

lxml解析器;

pip install lxml

使用BeautifulSoup解析HTML

Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库。

#导入requests包
import requests
#导入BeautifulSoup包
from bs4 import BeautifulSoup
#导入lxml
import lxml

为了避免浏览器识别出爬虫，需要设置User-Agent

headers = {
   
        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.102 Safari/537.36'
    }

使用requests.get()获取网页

response = requests.get(url,headers=headers)

构建BeautifulSoup对象

soup = BeautifulSoup(response.text, "lxml")

拿到so

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Championers

关注关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

python爬虫学习笔记-2

Exploring2018的博客

11-27

467

python爬虫学习笔记-2

python 爬虫学习笔记

03-09

Python 爬虫学习笔记本文将详细介绍 Python 爬虫学习笔记的知识点，涵盖爬虫基础、网络和前端基础、Requests 模块、请求头、GET 和 POST 请求、代理、Cookie 模拟登录、Quote 和 Unquote、登录和获取 Cookie、Post...

参与评论您还未登录，请先登录后发表或查看评论

selenium 查找b或p标签的内容

cuisidong1997的博客

07-05

1160

numbs=driver.find_element_by_class_name('redNum') print(numbs.text)

JavaScript获取节点

quangelixi的博客

10-07

2615

1、通过ID获取，是id唯一： document.getElementById("main "); 2、通过class名获取的是类数组，拿到的是一个类数组，这个数组包含所有class是left的元素。类数组是从上往下拿元素 document.getElementsByClassName("left"); let l =document.getElementsByClassName("left"); console.log(l[0]);//获取类数组中第一个元素 3、通过标签名获取的是.

python爬虫（四）------bs4库（二）------BeautifulSoup的findall()、find(()、select()和select_one()等方法

m0_59389084的博客

08-12

2496

python爬虫（四）------bs4库（二）------BeautifulSoup的findall()、find(()、select()和select_one()等方法

html项目在哪里找,Beautiful Soup-如何在HTML中的特定项目后查找标签？

weixin_42545159的博客

06-18

149

您始终可以在find_all中使用自定义函数(或lambda表达式)。以下是不言自明的(IMO)。result = soup.find_all(lambda x: x.name == 'p' and'XYZ' in x.get('class', '') andx.find_previous('div', class_='ABC'))例from bs4 import BeautifulSoupht...

Python爬虫学习笔记

tmyzxy1314的博客

10-17

3154

Python爬虫是一种使用Python编程语言开发的自动化网页抓取工具。它们主要用于从互联网上获取数据，通常用于收集公开信息，如新闻文章、社交媒体帖子、价格信息等。

Python爬虫学习笔记1——pathon爬虫原理

耶律大石的博客

02-01

4671

前言：最近感觉python爬虫很有趣，打算开始系统的学习一下。简单来说互联网是由一个个站点和网络设备组成的大网，我们通过浏览器访问站点，站点把HTML、JS、CSS代码返回给浏览器，这些代码经过浏览器解析、渲染，将丰富多彩的网页呈现我们眼前； 1、爬虫是什么？简单来说，网络爬虫就是一段程序，它模拟人类访问互联网的形式，不停地从网络上抓取我们需要的数据。我们可以定制各种各样的爬虫，来满足不...

python爬虫——学习笔记

m0_63507677的博客

08-01

554

python爬虫——学习笔记

Python爬虫篇：爬虫笔记合集

热门推荐

五包辣条的博客

04-20

3万+

学习爬虫你完全可以理解为找辣条君借钱（借100万），首先如果想找辣条借钱那首先需要知道我的居住地址，然后想办法去到辣条的所在的（可以走路可以坐车），然后辣条身上的东西比较多，有100万，打火机，烟，手机衣服，需要从这些东西里面筛选出你需要的东西，拿到你想要的东西之后我们就可以去存钱，

python爬虫学习笔记-scrapy框架(1)

01-29

python爬虫学习笔记-scrapy框架(1) python scrapy 爬虫 python爬虫学习笔记-scrapy框架(1) python scrapy 爬虫 python爬虫学习笔记-scrapy框架(1) python scrapy 爬虫 python爬虫学习笔记-scrapy框架(1) python ...

python爬虫学习笔记.zip

01-01

学习笔记：在项目开发过程中，我记录了大量的学习笔记和心得体会。这些笔记不仅有助于理解项目的开发过程，还能为学习Python爬虫技术提供宝贵的参考资料。适用人群：这份项目合集适用于所有对Python爬虫开发感...

【人工智能学习之PaddleOCR快速上手】

Jiagym的博客

10-12

1268

在配置文件中，可以设置组建模型、优化器、损失函数、模型前后处理的参数，PaddleOCR从配置文件中读取到这些参数，进而组建出完整的训练流程，完成模型训练，在需要对模型进行优化的时，可以通过修改配置文件中的参数完成配置，使用简单且方便修改。而 L2 正则化中，添加正则化项的目的在于减少参数平方的总和。准确检测的标准是检测框与标注框的IOU大于某个阈值，正确识别的检测框中的文本与标注的文本相同。如果缺少带标注的数据，或者不想投入研发成本，建议直接调用开放的API，开放的API覆盖了目前比较常见的一些垂类。

Python 使用 Jarvis 算法或包装的凸包（Convex Hull using Jarvis’ Algorithm or Wrapping）

最新发布

csdn_aspnet的专栏

10-14

1158

例如，当输入 (0, 3), (0, 0), (0, 1), (3, 0), (3, 3) 时，它产生 (0, 3) (0, 0) (3, 0) (3, 3) 的输出；当输入 (0, 3), (0, 1), (0, 0), (3, 0), (3, 3) 时，输出为 (0, 3) (0, 1) (0, 0) (3, 0) (3, 3)。下一个点被选为在逆时针方向上领先于所有其他点的点，即，如果对于任何其他点 r，我们有“orientation(p, q, r) = 逆时针”，则下一个点是 q。

有趣的开源项目——Taipy(构建Python数据和AI Web应用程序)

Soul丶君的博客

10-11

908

Taipy 是专为数据科学家和机器学习工程师设计的，用于构建数据与 AI Web 应用程序的工具。⭐️ 使构建生产就绪的 Web 应用程序成为可能。⭐️ 无需学习新的语言，仅需 Python。⭐️ 专注于数据和 AI 算法，而不用担心开发和部署的复杂性。

Backend - Java 基础

是萝卜干呀的博客

10-11

842

知识量决定了未来能走多远

【python入门到精通专题】8.装饰器

情不知所起一往而深

10-13

768

什么是property属性？一种用起来像是使用的实例属性一样的特殊属性，可以对应于某个方法。class Foo:pass# 定义property属性@propertypassfoo_obj.func() # 调用实例方法foo_obj.prop # 调用property属性@propertyreturn 100定义时，在实例方法的基础上添加 @property 装饰器；并且仅有一个self参数调用时，无需括号。

如何使用Python爬虫处理JavaScript动态加载的内容？

Z_suger7的博客

10-11

780

JavaScript动态加载的内容为爬虫带来了挑战，但也提供了新的机遇。通过使用Selenium、分析API请求或Pyppeteer，我们可以有效地爬取这些动态内容。这些方法各有优势，Selenium适合模拟复杂的用户交互，API请求适合直接获取数据，而Pyppeteer则提供了更强大的JavaScript控制能力。在实际应用中，开发者应根据目标网站的特点和需求选择合适的方法。随着技术的不断发展，我们也需要不断学习和适应新的工具和方法，以保持在数据获取领域的竞争力。复制再试一次分享。

"Python爬虫学习笔记：正则表达式与re库基本使用

Python爬虫学习笔记.pdf是一本介绍Python爬虫学习的重要文档。其中，对于正则表达式的学习是非常重要的一部分。正则表达式（Regular Expression）是一段字符串，可以用于表示一段有规律的信息。使用正则表达式的步骤...