数据采集和解析
通过《网络爬虫和相关工具》一文,我们已经了解到了开发一个爬虫需要做的工作以及一些常见的问题,至此我们可以对爬虫开发需要做的工作以及相关的技术做一个简单的汇总,这其中可能会有一些我们之前没有使用过的第三方库,不过别担心,这些内容我们稍后都会一一讲到。
- 下载数据 - urllib / requests / aiohttp。
- 解析数据 - re / lxml / beautifulsoup4(bs4)/ pyquery。
- 缓存和持久化 - pymysql / sqlalchemy / peewee/ * redis / pymongo。
- 生成数字签名 - hashlib。
- 序列化和压缩 - pickle / json / zlib。
- 调度器 - 进程(multiprocessing) / 线程(threading) / 协程(coroutine)。
HTML页面分析
如果你依然在编程的世界里迷茫,
不知道自己的未来规划,
对python感兴趣,
这里推荐一下我的学习交流圈:832 139 748,
里面都是学习python的,
从最基础的python【python,游戏,黑客技术,网络安全,数据挖掘,爬虫】
到网络安全的项目实战的学习资料都有整理,
送给每一位python小伙伴,
希望能帮助你更了解python,学习python
<!DOCTYPE html>
<html lang="en">
<head>
<meta charset="UTF-8">
<title>首页</title>
</head>
<body>
<h1>Hello, world!</h1>
<p>这是一个神奇的网站!</p>
<hr>
<div>
<h2>这是一个例子程序</h2>
<p