python爬虫笔记

最新推荐文章于 2024-09-05 10:00:00 发布

午后阳光送给你

最新推荐文章于 2024-09-05 10:00:00 发布

阅读量296

点赞数 1

分类专栏： python 文章标签： python

本文链接：https://blog.csdn.net/qq_25022577/article/details/117914447

版权

python 专栏收录该内容

12 篇文章 0 订阅

订阅专栏

python爬虫笔记

可能用到的标准库及第三方库

下载数据 - urllib / requests / aiohttp / httpx。
解析数据 - re / lxml / beautifulsoup4 / pyquery。
缓存和持久化 - mysqlclient / sqlalchemy / peewee / redis / pymongo。
生成数字签名 - hashlib。
序列化和压缩 - pickle / json / zlib。
调度器 - multiprocessing / threading / concurrent.futures。

URL 管理器去重方式 ---- 防止重复爬取数据

内存去重 ---- 集合 set()
关系数据库去重
缓存数据库去重

UA伪装
UA :user-agent 请求载体的身份标识
门户网站的服务器，会检测对应请求的载体身份标识，如果检测到某一请求的载体身份标识，为某一款浏览器，则说明此请求为一个正常请求。
如果检测到某一请求的载体身份标识，不是某一款浏览器，则表示此次请求，不是一个正常的请求（爬虫），则服务器端就很可能拒绝此次访问请求。
UA伪装，就是将我们的爬虫程序，伪装成某一款浏览器，躲避门户网站的反爬策略，从而实现我们的数据爬取。
捕获动态数据（AJAX）
数据解析
正则
bs4
– beautifulsop doc zh_CN
xpath
1). /html/head/title: 选择HTML文档中 <head> 标签内的 <title> 元素
2). /html/head/title/text(): 选择上面提到的 <title> 元素的文字
3). /td: 选择所有的 <td> 元素
4). //div[@class=“mine”]: 选择所有具有 class=“mine” 属性的 div 元素
requests 返回数据类型
- text – 字符串，例如文本数据，正张网页内容等
- content – 二进制，例如图片数据
- json – json对象，json格式数据

目录组织结构

Foo/
|-- bin/
|   |-- foo
|
|-- foo/
|   |-- tests/
|   |   |-- __init__.py
|   |   |-- test_main.py
|   |
|   |-- __init__.py
|   |-- main.py
|
|-- docs/
|   |-- conf.py
|   |-- abc.rst
|
|-- setup.py
|-- requirements.txt
|-- README

说明：

bin/: 存放项目的一些可执行文件，当然你可以起名script/之类的也行。

foo/: 存放项目的所有源代码。(1) 源代码中的所有模块、包都应该放在此目录。不要置于顶层目录。(2) 其子目录tests/存放单元测试代码； (3) 程序的入口最好命名为main.py。

docs/: 存放一些文档。

setup.py: 安装、部署、打包的脚本。

requirements.txt: 存放软件依赖的外部Python包列表。

README: 项目说明文件。

以上，
持续更新中