maxun爬虫机器人介绍与部署

软件介绍

机器人爬虫工具,绕开编码,直接从网页中截图并且进行解析

一款全新的无代码网页数据提取平台,无需编程即可轻松抓取网站的数据,支持列表/文本抓取、截图、自定义代理、自动处理分页和滚动等功能。作为一个新的开源项目,它的功能还在不停迭代,计划推比如适应网站布局变化和登录后数据提取等新功能

代码地址:

https://github.com/getmaxun/maxun?tab=readme-ov-file

软件部署

1、下载git

yum install git

2、克隆代码

git clone https://github.com/getmaxun/maxun.git

3、创建配置文件

cd maxun
mkdir .env

添加如下内容

# App Setup
NODE_ENV=production                     # Set to 'development' or 'production' as required
JWT_SECRET=a9Z$kLq7^f03GzNw!bP9dH4xV6sT2yXl3O8vR@uYq3          # Replace with a secure JWT secret key
DB_NAME=maxun                           # Your PostgreSQL database name
DB_USER=postgres                        # PostgreSQL username
DB_PASSWORD=postgres                    # PostgreSQL password
DB_HOST=postgres                        # Host for PostgreSQL in Docker
DB_PORT=5432                            # Port for PostgreSQL (default: 5432)
ENCRYPTION_KEY=f4d5e6a7b8c9d0e1f23456789abcdef01234567890abcdef123456789abcdef0      # Key for encrypting sensitive data (passwords and proxies)
MINIO_ENDPOINT=minio                    # MinIO endpoint in Docker
MINIO_PORT=9000                         # Port for MinIO (default: 9000)
MINIO_CONSOLE_PORT=9001                 # Web UI Port for MinIO (default: 9001)
MINIO_ACCESS_KEY=minio_access_key       # MinIO access key
MINIO_SECRET_KEY=minio_secret_key       # MinIO secret key
REDIS_HOST=redis                        # Redis host in Docker
REDIS_PORT=6379                         # Redis port (default: 6379)

# Backend and Frontend URLs and Ports
BACKEND_PORT=8080 # Port to run backend on. Needed for Docker setup 
FRONTEND_PORT=5173 # Port to run frontend on. Needed for Docker setup 
BACKEND_URL=http://localhost:8080       # URL on which the backend runs. You can change it based on your needs. 
PUBLIC_URL=http://localhost:5173        # URL on which the frontend runs. You can change it based on your needs. 
VITE_BACKEND_URL=http://localhost:8080  # URL used by frontend to connect to backend. It should always have the same value as BACKEND_URL
VITE_PUBLIC_URL=http://localhost:5173   # URL used by backend to connect to frontend. It should always have the same value as PUBLIC_URL

# Optional Google OAuth settings for Google Sheet Integration
GOOGLE_CLIENT_ID=your_google_client_id
GOOGLE_CLIENT_SECRET=your_google_client_secret
GOOGLE_REDIRECT_URI=your_google_redirect_uri

# Telemetry Settings - Please keep it enabled. Keeping it enabled helps us understand how the product is used and assess the impact of any new changes. 
MAXUN_TELEMETRY=true

方式一:

Docker部署minio-CSDN博客

Docker部署Redis教程-CSDN博客

Docker部署Postgres教程_docker pull postgres-CSDN博客

Linux部署NodeJS-CSDN博客

项目部署

git clone https://github.com/getmaxun/maxun

# change directory to the project root
cd maxun

# install dependencies
npm install

# change directory to maxun-core to install dependencies
cd maxun-core 
npm install

# get back to the root directory
cd ..

# make sure playwright is properly initialized
npx playwright install
npx playwright install-deps

# get back to the root directory
cd ..

# start frontend and backend together
npm run start

方式二:

a、下载 docker compose

yum -y update
yum install -y docker-compose-plugin
yum install -y python-pip   
docker compose version

b、启动容器

docker compose --env-file .env up -d

4、测试

浏览器中输入http://localhost:5173/ 

如果远程,需要讲localhost改成服务器IP 

部署参考:

https://github.com/getmaxun/maxun

<think>好的,用户让我分析一个HTML文档,我需要先仔细看一下代码的结构和内容。这个HTML看起来像是一个React应用的入口文件,可能使用Vite作为构建工具。首先,我应该检查文档类型和基本结构是否正确。`<!DOCTYPE html>`声明是正确的,然后是`html`标签,指定了`lang="en"`,这可能会影响SEO和辅助功能,但用户可能知道这一点。 接下来看`head`部分,里面有`meta`标签,包括字符集、视口设置、主题颜色和描述。视口设置正确,确保响应式设计。描述内容提到是使用Vite创建的网站,这可能是一个默认模板,但用户可能已经自定义了。需要注意的是,`theme-color`可能会影响移动浏览器顶部状态栏的颜色,这可能品牌一致。 `link`标签引用了`src/assets/maxunlogo.png`作为favicon,这里需要确认路径是否正确。由于使用了相对路径,如果文件结构正确,应该没问题。标题部分提到了“Maxun | Open Source No Code Web Data Extraction Platform”,说明这是一个开源的无代码数据提取平台,可能用户正在开发或维护这个项目。 在`body`中,有一个`script`标签,类型是`module`,指向`/src/index.tsx`,这表明主入口是TypeScript文件,且使用了React(因为.tsx扩展名)。Vite会自动处理这些模块,特别是在开发服务器和构建过程中。用户可能关心这个脚本的加载是否正常,或者有没有潜在的错误。 `noscript`标签处理的是当JavaScript被禁用时的提示信息,这对可访问性很重要。然后有一个`id="root"`的`div`,这是React挂载应用的标准做法,用户可能已经熟悉这一点,但可能需要确认是否存在挂载问题。 注释部分提到Vite会在构建时自动注入必要的脚本,这通常是Vite的功能之一,用户可能想了解构建过程是否正常,或者是否需要手动调整。 现在,用户可能是开发者,想要确认这个HTML文件是否正确配置,或者在使用过程中遇到了问题,比如资源加载失败、React应用无法挂载等。需要检查路径是否正确,尤其是`href="src/assets/maxunlogo.png"`和`src="/src/index.tsx"`。如果项目结构中的`assets`文件夹在`public`目录下,可能需要调整路径。另外,确保`index.tsx`文件位于正确的路径,否则会导致应用无法启动。 还有可能用户想知道如何优化这个HTML文件,比如添加SEO相关的其他meta标签,或者优化性能,比如预加载资源、使用CDN等。另外,检查是否所有必要的meta标签都已正确设置,比如`og:`标签用于社交媒体分享。 用户可能没有明确说出的需求是,如何解决在部署过程中遇到的路径问题,或者构建后的HTML文件是否正确注入资源。需要提醒用户Vite在构建时会处理资源路径,但在生产环境中可能需要配置base路径或使用绝对路径。 最后,确保用户了解不同部分的用途,比如`viewport`设置对移动端的影响,或者如何修改主题颜色以适应品牌。如果有进一步的疑问,比如如何配置Vite或优化React应用的加载性能,可能需要提供更多的信息或步骤。</think>以下是对你提供的 HTML 文件的逐层解析: --- ### **一、基础结构** ```html <!DOCTYPE html> <html lang="en"> <head>...</head> <body>...</body> </html> ``` - `<!DOCTYPE html>`:声明文档类型为 HTML5 - `<html lang="en">`:根标签,`lang="en"` 表示页面主要语言为英文(SEO相关) - `<head>`:存放元数据(不可见内容) - `<body>`:存放页面可见内容 --- ### **二、`<head>` 关键元素解析** 1. **字符编码视口适配** ```html <meta charset="utf-8" /> <!-- 强制使用 UTF-8 编码 --> <meta name="viewport" content="width=device-width, initial-scale=1" /> ``` - 防止乱码 - 确保移动端自适应(禁用缩放,视口宽度=设备宽度) 2. **PWA 主题色** ```html <meta name="theme-color" content="#000000" /> ``` - 控制浏览器地址栏/状态栏颜色(渐进式 Web 应用特性) 3. **SEO 描述图标** ```html <meta name="description" content="Web site created using Vite" /> <link rel="icon" type="image/png" href="src/assets/maxunlogo.png"> <title>Maxun | Open Source No Code Web Data Extraction Platform</title> ``` - `description`:搜索引擎展示的摘要 - `icon`:浏览器标签页图标(建议使用绝对路径) - `title`:页面标题(含关键词“无代码数据提取平台”) --- ### **三、`<body>` 核心逻辑** 1. **React 挂载点** ```html <div id="root"></div> ``` - React/Vue 等框架的默认挂载容器 2. **脚本加载** ```html <script type="module" src="/src/index.tsx"></script> ``` - `type="module"`:启用 ES6 模块化 - `src="/src/index.tsx"`:入口为 TypeScript + JSX 文件(React 典型配置) 3. **无 JavaScript 回退** ```html <noscript>You need to enable JavaScript to run this app.</noscript> ``` - 禁用 JS 时的友好提示 --- ### **四、技术栈推测** | 特征 | 推断技术 | |-----------------------|-----------------------| | `index.tsx` 入口文件 | React + TypeScript | | Vite 自动注入注释 | 使用 Vite 构建工具 | | 模块化脚本加载 | 现代前端工程化架构 | --- ### **五、潜在优化建议** 1. **图标路径优化** ```html <!-- 原代码 --> <link rel="icon" href="src/assets/maxunlogo.png"> <!-- 建议改为(若图标在 public 目录) --> <link rel="icon" href="/maxunlogo.png"> ``` 2. **补充 SEO 元数据** ```html <meta property="og:title" content="Maxun | 开源无代码网页数据提取平台"> <meta property="og:image" content="/social-preview.png"> ``` 3. **添加 PWA 支持** ```html <!-- 在 head 中追加 --> <link rel="manifest" href="/manifest.json"> ``` --- ### **六、Vite 特性说明** - **开发阶段**:自动提供热更新(HMR) - **构建阶段**: - 自动优化资源路径 - 将 `index.tsx` 编译为浏览器兼容的 JS - 注入打包后的脚本文件(自动替换注释位置) --- 如果需要更深入的 Vite 配置或 React 项目结构分析,可以进一步补充具体问题!
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

源图客

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值