requests-html 项目教程
requests-html 项目地址: https://gitcode.com/gh_mirrors/req/requests-html
1. 项目目录结构及介绍
requests-html/
├── docs/
├── ext/
├── tests/
├── .gitattributes
├── .gitignore
├── .travis.yml
├── LICENSE
├── Makefile
├── Pipfile
├── Pipfile.lock
├── README.rst
├── pytest.ini
├── requests_html.py
├── setup.py
目录结构说明
- docs/: 存放项目的文档文件。
- ext/: 存放项目的扩展文件。
- tests/: 存放项目的测试文件。
- .gitattributes: Git 属性配置文件。
- .gitignore: Git 忽略文件配置。
- .travis.yml: Travis CI 配置文件。
- LICENSE: 项目许可证文件。
- Makefile: 项目构建文件。
- Pipfile: Pipenv 依赖管理文件。
- Pipfile.lock: Pipenv 依赖锁定文件。
- README.rst: 项目说明文件。
- pytest.ini: pytest 配置文件。
- requests_html.py: 项目主文件,包含核心功能。
- setup.py: 项目安装配置文件。
2. 项目启动文件介绍
requests_html.py
requests_html.py
是项目的核心文件,包含了主要的 HTML 解析功能。该文件定义了 HTML
类,用于处理 HTML 文档的解析和操作。
from requests_html import HTMLSession
session = HTMLSession()
r = session.get('https://python.org/')
print(r.html.links)
启动步骤
- 导入
HTMLSession
类。 - 创建
HTMLSession
实例。 - 使用
get
方法发送 HTTP GET 请求。 - 使用
html
属性获取 HTML 内容并进行解析。
3. 项目配置文件介绍
setup.py
setup.py
是项目的安装配置文件,用于定义项目的元数据和依赖项。
from setuptools import setup, find_packages
setup(
name='requests-html',
version='0.10.0',
packages=find_packages(),
install_requires=[
'requests',
'pyquery',
'pyppeteer',
],
author='Kenneth Reitz',
author_email='me@kennethreitz.org',
description='Pythonic HTML Parsing for Humans™',
license='MIT',
keywords='html parsing',
url='https://github.com/kennethreitz/requests-html',
)
配置文件说明
- name: 项目名称。
- version: 项目版本号。
- packages: 需要包含的包。
- install_requires: 项目依赖的其他库。
- author: 项目作者。
- author_email: 作者邮箱。
- description: 项目描述。
- license: 项目许可证。
- keywords: 项目关键词。
- url: 项目主页。
通过这些配置,用户可以使用 pip install .
命令来安装项目及其依赖项。
requests-html 项目地址: https://gitcode.com/gh_mirrors/req/requests-html