爬虫到底难在哪里？

再不会AI就不礼貌了

已于 2024-01-05 16:09:58 修改

阅读量1.7k

点赞数 4

文章标签：爬虫 python 爬虫入门

于 2023-10-11 10:09:00 首次发布

本文链接：https://blog.csdn.net/Everly_/article/details/133761481

版权

文章探讨了爬虫面临的数据规模、质量、性能等难题构成的总体拥有成本，强调了PulsarRPA如何通过基础设施和前沿技术优化大规模数据采集，支持网络即数据库、浏览器渲染和RPA功能，降低整体成本。同时，提到了使用X-SQL解决复杂数据提取问题的示例。

摘要由CSDN通过智能技术生成

答：总体拥有成本。

爬虫的难点在于数据规模、数据质量、综合性能、人力维护成本、硬件支出等，这些难题构成了总体拥有成本的难题。

具体来看：
1.数据能采集到（难）
2.数据质量和调度质量保证（难难）
3.运行性能和机器成本（难难难）
4.业务和数据分析（难）
5.大批量站点的信息抽取（难难难）
6.构建知识图谱（难难难难）

谈几个具体一点的难点：
1.如何正确轮换IP？如何设置触发条件？事实上，仅轮换IP不够，需要“隐私上下文轮换”
2.如何使用单台机器每天提取数千万数据点？
3.如何保证数据准确性？
4.如何保证调度准确性？
5.如何保证分布式系统弹性？
6.如何正确提取 CSS 混淆的字段，它的 CSSPath/XPath/Regex 每个网页都不同，怎么解决？
7.如何采集数百个电商站点并避免爬虫失效？

解决方案

PulsarRPA（国内镜像）为解决网络数据采集、网络数据管理、多源异构数据融合、网络数据挖掘等问题，开发了一系列基础设施和前沿技术。类似 Playwright 这样的浏览器驱动，在 PulsarRPA 中仅仅只是一个不大的子系统，可见单单 Playwright 能够解决的问题极其有限。为了性能、稳定性、容错性等考虑，我们也不会使用 Playwright 作为浏览器驱动，而是基于 CDP 从头开发。

我们提供了大量顶级站点的采集示例，从入门到资深，包含各种采集模式，包括顶尖大站的全站采集代码、反爬天花板的站点的采集示例，你可以找一个代码示例改改就可以用于自己的项目：

Exotic Amazon，国内镜像 - 顶尖电商网站全站数据采集真实项目

Exotic Walmart，国内镜像 - 顶尖电商网站数据采集示例

Exotic Dianping，国内镜像 - 最困难的数据采集示例

我们的开源代码也包含 REST 服务、像数据库客户端一样的网页客户端等等，基于该网页客户端，你甚至可以稍稍完善一些用户体验就可以打造与最知名“采集器”相媲美的产品。

PulsarRPA（国内镜像）为解决网络数据管理、多源异构数据融合、网络数据采集等问题，开发了一系列基础设施和前沿技术：支持高质量的大规模数据采集和处理，支持网络即数据库范式，支持浏览器渲染并将其作为数据采集的首要方法，支持 RPA 采集，支持退化的单一资源采集，并计划支持最前沿的信息提取技术，提供了人工智能网页提取的预览版本。

PulsarRPA 支持高质量的大规模数据采集和处理**。**PulsarRPA 开发了一系列基础设施和前沿技术，来保证即使是大规模数据采集场景，也能达到最高标准的性能、质量和总体拥有成本。

**PulsarRPA 支持网络即数据库范式。**PulsarRPA 像对待内部数据库一样对待外部网络，如果需要的数据不在本地存储中，或者现存版本不满足分析需要，则系统会从互联网上采集该数据的最新版本。我们也可以使用简单的 SQL 将 Web 直接转换为表格和图表，更进一步，我们可以使用 SQL 直接查询 Web。

**PulsarRPA 支持浏览器渲染并将其作为数据采集的首要方法。**将浏览器渲染作为数据采集的首要方法，我们在数据点规模、数据质量、人力成本和硬件成本之间实现了最佳平衡，并实现了最低的总体拥有成本。通过优化，如屏蔽不相关的资源文件，浏览器渲染的性能甚至可以与传统的单一资源采集方法相媲美。

**PulsarRPA 支持 RPA 采集。**PulsarRPA 包含一个 RPA 子系统，来实现网页交互：滚动、打字、屏幕捕获、鼠标拖放、点击等。该子系统和大家所熟知的 selenium, playwright, puppeteer 是类似的，但对所有行为进行了优化，譬如更真实的模拟操作，更好的执行性能，更好的并行性，更好的容错处理，等等。

**PulsarRPA 支持退化的单一资源采集。**PulsarRPA 的默认采集方式是通过浏览器渲染来采集完整的网页数据，如果您需要的数据可以通过单一接口获取，譬如可以通过某个 ajax 接口返回，也可以调用 PulsarRPA 的资源采集方法进行高速采集。

**PulsarRPA 计划支持最前沿的信息提取技术。**我们计划发布一个先进的人工智能，以显著的精度自动提取所有网页（譬如商品详情页）中的每一个字段，目前我们提供了一个预览版本，国内镜像。代码示例大多数抓取尝试可以从几乎一行代码开始：

fun main() = PulsarContexts.createSession().scrapeOutPages(
  "https://www.amazon.com/", "-outLink a[href~=/dp/]", listOf("#title", "#acrCustomerReviewText"))

上面的代码从一组产品页面中抓取由 css 选择器 #title 和 #acrCustomerReviewText 指定的字段。示例代码可以在这里找到：kotlin，java，国内镜像：kotlin，java。
大多数生产环境数据采集项目可以从以下代码片段开始：

fun main() {
    val context = PulsarContexts.create()

    val parseHandler = { _: WebPage, document: Document ->
        // use the document
        // ...
        // and then extract further hyperlinks
        context.submitAll(document.selectHyperlinks("a[href~=/dp/]"))
    }
    val urls = LinkExtractors.fromResource("seeds10.txt")
        .map { ParsableHyperlink("$it -refresh", parseHandler) }
    context.submitAll(urls).await()
}

示例代码可以在这里找到：kotlin，java，国内镜像：kotlin，java。
最复杂的数据采集项目可以使用 RPA 模式：
最复杂的数据采集项目往往需要和网页进行复杂交互，为此我们提供了简洁强大的 API。以下是一个典型的 RPA 代码片段，它是从顶级电子商务网站收集数据所必需的：

val options = session.options(args)
val event = options.event.browseEvent
event.onBrowserLaunched.addLast { page, driver ->
    // warp up the browser to avoid being blocked by the website,
    // or choose the global settings, such as your location.
    warnUpBrowser(page, driver)
}
event.onWillFetch.addLast { page, driver ->
    // have to visit a referrer page before we can visit the desired page
    waitForReferrer(page, driver)
    // websites may prevent us from opening too many pages at a time, so we should open links one by one.
    waitForPreviousPage(page, driver)
}
event.onWillCheckDocumentState.addLast { page, driver ->
    // wait for a special fields to appear on the page
    driver.waitForSelector("body h1[itemprop=name]")
    // close the mask layer, it might be promotions, ads, or something else.
    driver.click(".mask-layer-close-button")
}
// visit the URL and trigger events
session.load(url, options)

示例代码可以在这里找到:kotlin，国内镜像。

最复杂的 Web 数据抽取难题需要用 X-SQL 来解决

1.您的 Web 数据提取规则非常复杂，例如，每个单独的页面有 100 多个规则
2.需要维护的数据提取规则很多，比如全球 20 多个亚马逊网站，每个网站 20 多个数据类型select

      dom_first_text(dom, '#productTitle') as title,
      dom_first_text(dom, '#bylineInfo') as brand,
      dom_first_text(dom, '#price tr td:matches(^Price) ~ td, #corePrice_desktop tr td:matches(^Price) ~ td') as price,
      dom_first_text(dom, '#acrCustomerReviewText') as ratings,
      str_first_float(dom_first_text(dom, '#reviewsMedley .AverageCustomerReviews span:contains(out of)'), 0.0) as score
  from load_and_select('https://www.amazon.com/dp/B09V3KXJPB -i 1s -njr 3', 'body');

示例代码: Exotic Amazon’s X-SQLs

如果你对Python感兴趣，想要学习python，这里给大家分享一份Python全套学习资料，都是我自己学习时整理的，希望可以帮到你，一起加油！

😝有需要的小伙伴，可以V扫描下方二维码免费领取🆓