2024年Python最全Python爬虫所需的常用库_python爬数需要用到什么库，2024春招面试技巧

最新推荐文章于 2024-05-04 06:18:05 发布

美好前端开发者

最新推荐文章于 2024-05-04 06:18:05 发布

阅读量757

点赞数 11

分类专栏：程序员文章标签： python 爬虫面试

本文链接：https://blog.csdn.net/m0_61549674/article/details/138423345

版权

程序员专栏收录该内容

170 篇文章 0 订阅

订阅专栏

现在能在网上找到很多很多的学习资源，有免费的也有收费的，当我拿到1套比较全的学习资源之前，我并没着急去看第1节，我而是去审视这套资源是否值得学习，有时候也会去问一些学长的意见，如果可以之后，我会对这套学习资源做1个学习计划，我的学习计划主要包括规划图和学习进度表。

分享给大家这份我薅到的免费视频资料，质量还不错，大家可以跟着学习

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友，可以戳这里获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

from bs4 import BeautifulSoup

html_doc = """
<html>
<head>
<title>Example</title>
</head>
<body>
<div class="content">
<h1>Welcome to Example</h1>
<p>Some text here</p>
</div>
</body>
</html>
"""

soup = BeautifulSoup(html_doc, 'html.parser')
print(soup.title.text)
print(soup.find('div', {'class': 'content'}).h1.text)

Beautiful Soup还提供了其他功能，如查找元素、提取属性、处理文本等。

2.2. lxml

lxml是一个高性能的Python库，用于处理XML和HTML文档。它提供了一个简洁的API，使得解析和修改文档变得容易。以下是一个使用lxml解析HTML的例子：

from lxml import etree

html_doc = """
<html>
<head>
<title>Example</title>
</head>
<body>
<div class="content">
<h1>Welcome to Example</h1>
<p>Some text here</p>
</div>
</body>
</html>
"""

tree = etree.HTML(html_doc)
print(tree.xpath('//title/text()'))
print(tree.xpath('//div[@class="content"]/h1/text()'))

lxml还提供了其他功能，如遍历文档、提取属性、处理命名空间等。

3. 数据存储库

数据存储库用于将爬取的数据存储到本地或远程数据库中，以备后续处理和分析。以下是一些常用的数据存储库。

3.1. SQLite

SQLite是一个轻量级的关系型数据库，它使用单个文件存储整个数据库，非常适合小规模的数据存储和查询。以下是一个使用SQLite存储数据的例子：

import sqlite3

conn = sqlite3.connect('example.db')
cursor = conn.cursor()

cursor.execute('''
 CREATE TABLE IF NOT EXISTS data
 (id INTEGER PRIMARY KEY AUTOINCREMENT,
 title TEXT,
 content TEXT)
''')

cursor.execute('INSERT INTO data (title, content) VALUES (?, ?)', ('Example', 'Some text here'))

conn.commit()
conn.close()

SQLite还提供了其他功能，如查询数据、更新数据、事务处理等。

3.2. MongoDB

MongoDB是一个NoSQL数据库，它使用文档存储数据，非常适合大规模和非结构化的数据存储。以下是一个使用MongoDB存储数据的例子：

from pymongo import MongoClient

client = MongoClient('mongodb://localhost:27017/')
db = client['example']
collection = db['data']

data = {'title': 'Example', 'content': 'Some text here'}
collection.insert_one(data)

MongoDB还提供了其他功能，如查询数据、更新数据、索引、聚合操作等。

4. 其他常用库

除了上述的网络请求库、解析库和数据存储库，还有许多其他常用的库可以加强爬虫的功能。

Scrapy-Redis：一个基于Redis的分布式爬虫框架，可以实现分布式爬虫的调度和队列管理。
Selenium：一个用于自动化浏览器操作的库，用于处理JavaScript渲染的网页。
Pandas：一个用于数据分析和处理的库，可以对爬取的数据进行清洗、转换和分析。
NumPy：一个用于科学计算和数值操作的库，可以用于对爬取的数据进行统计和数值计算。
Scikit-learn：一个用于机器学习和数据挖掘的库，可以对爬取的数据进行建模和预测。

案例

当然，请看下面的三个案例：

案例1：使用Requests库获取网页内容

import requests

# 发送GET请求
response = requests.get("https://www.example.com")
print(response.text)

上述代码使用Requests库发送GET请求，并打印出获取到的网页内容。

案例2：使用Beautiful Soup解析HTML

from bs4 import BeautifulSoup

html_doc = """
<html>
<head>
<title>Example</title>
</head>
<body>
<div class="content">
<h1>Welcome to Example</h1>
<p>Some text here</p>
</div>
</body>
</html>
"""

soup = BeautifulSoup(html_doc, 'html.parser')
print(soup.title.text)


### 一、Python所有方向的学习路线

Python所有方向路线就是把Python常用的技术点做整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。



![](https://img-blog.csdnimg.cn/img_convert/9f49b566129f47b8a67243c1008edf79.png)



### 二、学习软件

工欲善其事必先利其器。学习Python常用的开发软件都在这里了，给大家节省了很多时间。



![](https://img-blog.csdnimg.cn/img_convert/8c4513c1a906b72cbf93031e6781512b.png)



### 三、入门学习视频



我们在看视频学习的时候，不能光动眼动脑不动手，比较科学的学习方法是在理解之后运用它们，这时候练手项目就很适合了。



![](https://img-blog.csdnimg.cn/afc935d834c5452090670f48eda180e0.png?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA56iL5bqP5aqb56eD56eD,size_20,color_FFFFFF,t_70,g_se,x_16#pic_center)




**网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。**

**[需要这份系统化学习资料的朋友，可以戳这里获取](https://bbs.csdn.net/topics/618317507)**

**一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！**