python做简单爬虫的一些常用组件

最新推荐文章于 2024-10-08 12:37:10 发布

qq_36532060

最新推荐文章于 2024-10-08 12:37:10 发布

阅读量466

点赞数 11

文章标签： python 爬虫开发语言

本文链接：https://blog.csdn.net/qq_36532060/article/details/140816991

版权

文章目录

前言
request
json
bs4

前言

最近一直在做零散的一次性的爬虫工作，基本都是用python开发的，整理一下python做小规模爬虫开发常用的一些工具类

request

python最简单的发http请求的包，request.get和request.post就可以搞定绝大部分的抓取需求了，postman也提供直接把请求转成request代码的功能
在这里插入图片描述

import requests

url = "https://www.who.int/publications/i/item/9789240087002"

payload = {}
headers = {
  'Cookie': '_cfuvid=ckXDZTR8JfnelALNiB3ROmqSzyj13jtX.4WlS8zKHSw-1722239912266-0.0.1.1-604800000'
}

response = requests.request("GET", url, headers=headers, data=payload)

print(response.text)

json

类似java里的fastjson包，可以把map对象和json字符串相互转换，转换方法为json.loads(把json字符串转成map对象)和json.dumps(把map对象转成json字符串)

import json
dict_test={"key":"这是一个测试map"}
text_test=json.dumps(dict_test,ensure_ascii=False)
print(text_test)
dict_test2=json.loads(text_test)
print(dict_test2)

在这里插入图片描述
注意json.dumps如果要转换中文的话加一个ensure_ascii=False，要不然结果就会是这样

bs4

bs4是一个做html和xml树解析的包，使用如下

from bs4 import BeautifulSoup
html=BeautifulSoup(response.text)
html.find_all("div",class_="")

直接构建一个BeatifulSoup对象之后用find函数就可以定位到对应元素（组）

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

qq_36532060

关注关注

11
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Python实现简易Web爬虫详解

09-20

### Python实现简易Web爬虫详解 #### 知识点概览 1. **网络爬虫的概念及作用** 2. **Python作为爬虫开发语言的优势** 3. **爬虫实现的基本流程** 4. **使用Python标准库`urllib`进行网络请求** 5. **使用`...

Python-python爬虫由浅入深

08-10

《Python Python爬虫由浅入深》 Python作为一门易学且功能强大的编程语言，尤其在Web爬虫领域，有着广泛的应用。Web爬虫是一种自动提取网页信息的程序，它能够帮助我们批量获取网络上的数据，进行数据分析、信息...

参与评论您还未登录，请先登录后发表或查看评论

【python】Python爬虫详细教学与实战

热门推荐

景天科技苑

07-22

1万+

Python爬虫是指使用Python语言编写的程序，通过模拟浏览器请求站点的行为，将站点返回的HTML代码、JSON数据或二进制数据（如图片、视频）抓取到本地，进而提取和存储所需的数据。Python爬虫的应用非常广泛，如数据挖掘、信息处理、存储历史数据等。

Python爬虫必备工具大盘点

白帽阿叁的博客

09-28

3433

在当今信息化时代，网络爬虫成为获取大量数据的一种重要手段。而要开发一款高效、稳定的网络爬虫，离不开一系列强大的爬虫工具。本文将为您盘点一些爬虫必备的工具，帮助您快速构建出具有实际价值的网络爬虫。让我们一起探索吧！一、请求库1.Requests：这是Python中最流行的HTTP请求库之一。它简洁易用，支持各种请求方式，并且提供了丰富的功能和灵活的扩展机制，是构建网络爬虫的绝佳选择。二、解析库1.BeautifulSoup：是一种用于解析HTML和XML文档的Python库。

python爬虫常用库，Python面试总结

2401_83947105的博客

03-30

995

其实，这个过程比较耗时间。这是我花了几天的时间去把Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。基本上主流的和经典的都有，这里我就不放图了，版权问题，个人看看是没有问题的。

python爬虫常用第三方库

qq_39138840的博客

04-10

3825

python爬虫常用第三方库这个列表包含与网页抓取和数据处理的Python库网络通用 urllib-网络库(stdlib)。 requests-网络库。 grab– 网络库（基于pycurl）。 pycurl– 网络库（绑定libcurl）。 urllib3– Python HTTP库，安全连接池、支持文件post、可用性高。 httplib2– 网络...

python+selenium爬虫笔记

weixin_49390750的博客

01-04

1707

python+selenium爬虫笔记

Python爬虫之分布式爬虫

Tudective的博客

04-03

3558

此案例是通过分布式爬虫对一个新闻问政平台的投诉信息进行爬取，结合分布式爬虫和Redis缓存实现对数据的快速多量的爬取和存储。

Python网络爬虫入门篇

R5463995的博客

07-15

1556

Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析“标签树”等功能。它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简单，所以不需要多少代码就可以写出一个完整的应用程序。Beautiful Soup自动将输入文档转换为Unicode编码，输出文档转换为utf-8编码。你不需要考虑编码方式，除非文档没有指定一个编码方式，这时，Beautiful Soup就不能自动识别编码方式了。然后，你仅仅需要说明一下原始编码方式就可以了。

Python的网络爬虫框架-网络爬虫常用框架

精益求精，永无止境，永远在路上！

07-09

1226

大家好我是ζ小菜鸡，让我们一起来了解Python的网络爬虫框架-网络爬虫常用框架（一起努力，咱们顶峰相见！！！）

超级简单的Python爬虫入门教程(非常详细)，通俗易懂，看一遍就会了_爬虫python入门

2401_84139711的博客

05-02

2300

以下是我整理的python爬虫入门学习资料，都已经整理并打包好了。点击免费领取《CSDN大礼包》：最新全套【Python入门到进阶资料 & 实战源码 &安装工具】不知道你们用的什么环境，我一般都是用的Python3.6环境和pycharm解释器，没有软件，或者没有资料，没人解答问题，都可以免费领取（包括今天的代码），过几天我还会做个视频教程出来，有需要也可以领取~给大家准备的学习资料包括但不限于：Python 环境、pycharm编辑器/永久激活/翻译插件python 零基础视频教程。

Python入门网络爬虫之精华版

08-19

本篇文章《Python入门网络爬虫之精华版》主要介绍了Python网络爬虫的基础知识，从抓取、分析到存储的三个主要方面，以及如何应对一些常见的反爬虫机制。此外，还提及了Scrapy这一流行的爬虫框架，并提供了一个参考...

王者荣耀壁纸_爬虫_python_python爬虫_

09-30

在IT行业中，Python爬虫是一项重要的技能，尤其对于数据采集和分析来说。在这个案例中，我们看到一个关于“王者荣耀壁纸_爬虫_python_python爬虫_”的项目，它利用Python爬虫技术来下载《王者荣耀》游戏的高清壁纸。...

Python爬虫和爬虫框架资料

02-28

本资源包涵盖了Python爬虫的基础知识、高级技巧以及常用的爬虫框架，旨在帮助学习者快速掌握这一技能。首先，让我们从Python爬虫基础谈起。Python语言因其简洁明了的语法和丰富的库支持，成为了爬虫开发的首选语言...

python中zip()与zip(*)的用法解析

最新发布

m0_51579041的博客

10-08

280

zip()与zip(*)的用法解析

task【XTuner微调个人小助手认知】

m0_53291740的博客

10-07

838

下面我们将根据项目的需求一步步的进行修改和调整吧！在 PART 1 的部分，由于我们不再需要在 HuggingFace 上自动下载模型，因此我们先要更换模型的路径以及数据集的路径为我们本地的路径。为了训练过程中能够实时观察到模型的变化情况，XTuner 贴心的推出了一个。

gligen安装部署笔记

jacke121的专栏

10-08

261

gligen安装部署笔记

解决IE中a标签中的图片有边框

weixin_41674235的博客

10-08

211

‌1、通过CSS去除边框‌：在CSS中为img标签添加border:0 none;样式，例如：img{border:0 none;这种方法适用于大多数现代浏览器‌12。3‌、通过JavaScript去除点击后的虚线框‌：在a标签中添加outline:none;和text-decoration:none;这可以同时去除点击后的虚线框和下划线‌。

python常用组件

09-26

Python常用组件包括以下几个方面： 1. 标准库：Python的标准库是一组已经写好的模块和函数，提供了一系列常用的功能，例如文件操作、网络通信、数据处理等。常见的标准库包括os、sys、re、datetime等。 2. 第三方库：Python拥有丰富的第三方库，可以通过pip等工具进行安装和使用。常用的第三方库包括numpy、pandas、matplotlib、requests等，用于数值计算、数据分析、图形绘制、网络请求等。 3. Web框架：Python有多种Web框架可供选择，用于开发Web应用程序。常用的Web框架包括Django、Flask、Pyramid等，它们提供了路由、模板、ORM等功能，简化了Web应用开发的过程。 4. 数据库连接库：Python提供了各种数据库连接库，用于连接和操作各种类型的数据库。常见的数据库连接库包括MySQLdb、psycopg2、pymysql等，用于连接MySQL、PostgreSQL、MySQL等数据库。 5. 数据处理库：Python在数据处理方面有很多强大的库，例如numpy、pandas和scikit-learn等。这些库提供了丰富的数据处理和分析工具，方便用户进行各种数据操作。 6. 图像处理库：Python有很多用于图像处理的库，例如Pillow、OpenCV和scikit-image等。这些库提供了各种图像处理功能，包括图像读取、图像增强、图像识别等。 7. 网络爬虫库：Python的网络爬虫库十分强大，例如Scrapy和BeautifulSoup等。这些库可以帮助用户快速获取互联网上的数据，方便数据挖掘和分析。 8. 自然语言处理库：Python有很多用于自然语言处理的库，例如NLTK和spaCy等。这些库提供了各种文本处理和语言分析的功能，方便用户进行文本挖掘和情感分析等任务。