Neo4j 导入CSV数据

  • Neo4j 导入CSV数据
    • 要求
      • 必须有一个或多个 CSV 文件来表示将在图中创建的节点和关系。
      • 必须有一个已启动的现有 Neo4j DBMS。
    • Neo4j 中存储为属性的数据类型
      • String:字符串
      • Long (integer values):整数值
      • Double (decimal values):双精度(十进制值)
      • Boolean:布尔值
      • Date/Datetime:时间
      • Point (spatial):点空间
      • StringArray (comma-separated list of strings):逗号分隔的字符串列表
      • LongArray (comma-separated list of integer values):逗号分隔的整数值列表
      • DoubleArray (comma-separated list of decimal values):逗号分隔的十进制值列表
    • CSV 数据导入 Neo4j 的方法
      • 使用 Neo4j 数据导入器。
      • 编写 Cypher 代码来执行导入。
        • LOAD CSV
    • 数据导入 Neo4j 的步骤
      • 了解源 CSV 文件中的数据
        • CSV 的文件结构
          • CSV 文件是否有标题信息,描述字段的名称。
          • 每行中的字段的分隔符是什么。
        • CSV 文件示例
          • Cypher 使用的默认值,逗号 (,) 是字段终止符,如果源 CSV 文件使用不同的字段终止符,则必须FIELDTERMINATOR在 CypherLOAD CSV子句中指定。
        • 数据
          • 数据规范化
            • 唯一的 ID,能够拥有与关系表相对应的 CSV 文件,其中使用 ID 来标识关系。
            • 通常对应于单个 RDBMS 表
          • 非规范化数据
            • 数据由对应于同一实体的多行表示,将作为节点加载。
            • 特点
              • CSV 文件中存在重复数据。
              • 非规范化数据通常代表 RDBMS 中多个表的数据。
              • 表示将作为节点加载的实体的 ID 必须是唯一的。
        • ID 必须是唯一
          • 从 CSV 文件加载数据时,很大程度上依赖文件中指定的 ID。
          • Neo4j 的最佳实践是使用 ID 作为每个节点的唯一属性值。
      • 检查并清理(如有必要)源数据文件的数据
        • 在开始使用源 CSV 数据之前,您必须了解每行如何使用定界符、引号和特殊字符。
        • 如果标头与表示字段的数据不对应,则无法加载数据。
        • 还必须知道您是否可以假设使用默认分隔符“,”,否则,您将需要在使用 Cypher 导入数据时使用FIELDTERMINATOR关键字 along 。LOAD CSV
        • 应该拥有 CSV 文件的本地副本,以便您可以检查其中的数据。
        • 在使用 Neo4j 数据导入器时,将需要 CSV 文件的本地副本。
        • 导入步骤
          • 1、获取或下载 CSV
            • 如果 CSV 文件是一个 URL,可以简单地在 Web 浏览器中下载它并将其保存在本地。
          • 2、确定分隔符
            • 查看文件的内容(至少是开头的行)以确定分隔符。
          • 3、确定标头是否匹配字段
            • 使用 CSV 文件,您可以在电子表格中打开它以更好地理解数据。
            • 重点提示
              • 默认情况下,每行中的所有这些字段都将作为字符串类型读入。
              • 另请注意,对于此 CSV 文件,国家或语言等多值字段的值由“|”分隔 特点。
              • 在电子表格中,检查数据可能更容易一些。
          • 4、确定所有数据是否可读
            • Cypher 代码,它将读取包含标头并指定为 URL 的 CSV 文件中的所有数据
          • 5、数据是否干净?
            • 引号使用正确吗?
            • 如果元素没有值,是否会使用空字符串?
            • 是否使用 UTF-8 前缀(例如 \uc)?
            • 某些字段是否有尾随空格?
            • 这些字段是否包含二进制零?
            • 理解列表是如何形成的(默认是使用冒号(:)作为分隔符。
            • 有没有明显的错别字?
      • 创建或理解将在导入过程中实施的图形数据模型
    • Neo4j 数据模型
    • 要用于导入的数据
    • 检查数据以确保它是干净的
    • 使用 Neo4j 数据导入器
      • 概述
        • Neo4j 数据导入器(Neo4j Data Importer)是一个图形应用程序,允许将 CSV 文件从本地系统导入到图形中。
        • 使用此图形应用程序,检查 CSV 文件标头,并将它们映射到 Neo4j 图形中的节点和关系。
        • 连接到正在运行的 Neo4j DBMS 以执行导入。
        • Data Importer 的好处是无需了解 Cypher 即可加载数据。无需使用 Cypher 执行导入。
        • 导入到图形中的数据可以解释为字符串、整数、浮点数、日期时间或布尔数据。
      • 要求
        • 必须使用 CSV 文件进行导入。
        • CSV 文件必须驻留在本地系统上,以便可以将它们加载到图形应用程序中。
        • CSV 数据必须是干净的(在之前的课程中学到了这一点)。
        • 要创建的所有节点的 ID 必须是唯一的。
        • CSV 文件必须有标题。
        • 必须启动 DBMS。
      • 步骤
        • 1、将 CSV 文件放在本地系统上,并确保它们有标题并且是干净的。
        • 3、将本地系统上的 CSV 文件加载到图形应用程序中
        • 4、检查 CSV 文件中使用的 CSV 标头名称
          • 检查第一行确定
            • 用于创建节点的文件。
            • 用于创建关系的文件。
            • 如何使用 ID 来唯一标识数据。
        • 5、添加节点
          • a、通过单击“添加节点”图标在 UI 中添加节点。
          • b、在“映射详细信息”窗格中为节点指定标签。
          • c、选择要在“映射详细信息”窗格中使用的 CSV 文件。
        • 6、定义节点的映射详细信息
          • a、指定节点的属性(从我们选择所有字段的文件中选择添加)。
          • b、如果您希望属性使用不同的名称或类型,请编辑该属性。
          • c、指定节点的唯一 ID 属性。映射属性后,它们将在左侧面板中标记为绿色
        • 7、创建节点之间的关系
          • a、通过将节点的边缘拖动到自身或另一个节点来在 UI 中添加关系。
          • b、在“映射详细信息”窗格中指定关系的类型。
          • c、选择要在“映射详细信息”窗格中使用的 CSV 文件。
        • 8、定义关系的映射详细信息
          • a、在 Mapping Details 窗格中,指定要使用的 from 和 to 唯一属性 ID。
          • b、如果适用,为文件中的关系添加属性(可选)。
          • c、修改属性的名称或类型(如果您的数据模型需要)。
          • d、确认左侧面板中的 CSV 已全部设置为可以导入。
        • 9、执行导入
          • 导入数据。
          • 查看导入结果。
        • 10、在 Neo4j 浏览器中查看导入的数据
        • 数据导入后查看结果
          • 必须了解的数据导入器最重要的行为是属性值被写为字符串、长整型(整数值)、双精度(小数值)、日期时间或布尔值。
          • Data Importer 根据您为每个节点指定的唯一 ID 在所有节点上创建唯一性约束。
      • 其他功能
        • 映射导入或导出到 JSON 文件或 ZIP 文件。
    • 重构导入的数据
      • 查看存储在图中的属性类型
        • 查看节点的属性名称和类型
          • CALL apoc.meta.nodeTypeProperties() YIELD nodeType, propertyName, propertyTypes
        • 查看关系的属性名称和类型
          • CALL apoc.meta.relTypeProperties() YIELD relType, propertyName, propertyTypes
      • 将多值属性转换为列表属性。
        • 转换字符串属性
          • MATCH (p:Person) SET p.born = CASE p.born WHEN "" THEN null ELSE date(p.born) END WITH p SET p.died = CASE p.died WHEN "" THEN null ELSE date(p.died) END
          • 查看节点的属性名称和类型
            • CALL apoc.meta.nodeTypeProperties() YIELD nodeType, propertyName, propertyTypes
        • 转换多值属性
          • 多值属性是可以包含一个或多个值的属性。
          • 属性的多值由 “|” 字符被指定为分隔符
          • 将多值字段转换为列表,用两个 Cypher 内置函数
            • MATCH (m:Movie) SET m.countries = split(coalesce(m.countries,""), "|"),m.languages = split(coalesce(m.languages,""), "|"), m.genres = split(coalesce(m.genres,""), "|")
            • coalesce() 如果 m.countries 中的条目为空,则返回空字符串。 split()标识多值字段中的每个元素,其中“|” 字符是分隔符并创建每个元素的列表。
            • 转换为 StringArray 类型
      • 向图表添加标签。
        • 添加标签
          • 将Actor标签添加到具有ACTED_IN关系的所有节点
          • MATCH (p:Person)-[:ACTED_IN]->() WITH DISTINCT p SET p:Actor
      • 从属性值创建节点。
        • 查看图中约束
          • SHOW CONSTRAINTS
        • 创建节点之前向图中添加唯一性约束
          • 最佳做法是为图中给定类型的节点设置唯一 ID。
          • 当您在图中创建节点时,它可以防止重复节点。
          • 它加快了MERGE性能。
        • 为Genre节点的名称属性创建此唯一性约束
          • CREATE CONSTRAINT Genre_name IF NOT EXISTS FOR (x:Genre) REQUIRE x.name IS UNIQUE
        • 从Movie节点的genres属性创建Genre节点
          • MATCH (m:Movie) UNWIND m.genres AS genre WITH m, genre MERGE (g:Genre {name:genre}) MERGE (m)-[:IN_GENRE]->(g)
          • UNWIND子句将节点的流派列表中的元素扩展为行
          • MERGE,它仅在节点尚不存在时才创建该节点。
          • 从图中删除genres属性
            • MATCH (m:Movie) SET m.genres = null
          • 查看架构
            • CALL db.schema.visualization
    • 使用 Cypher 导入大型数据集
      • 导入的内存要求
        • Data Importer 是一个通用应用程序,它将图表中的所有属性创建为字符串、整数、小数、日期时间或布尔值,您可能需要在导入后对图表进行后处理或重构。数据导入器可用于包含少于 100 万行的中小型数据集。
        • 使用 Cypher 语句导入时,可以控制用于导入的内存量。在 Cypher 中,默认情况下,代码的执行是单个事务。为了处理大型 CSV 导入,需要将 Cypher 的执行分解为多个事务。
        • 使用:USING PERIODIC COMMIT,使用此代码结构导入大型数据集
          • USING PERIODIC COMMIT LOAD CSV WITH HEADERSFROM 'url-for-CSV-file'AS row
          • 此类导入的默认事务大小为 500 行。从 CSV 文件中读取 500 行后,数据将提交到图形并继续导入。能够将非常大的 CSV 文件加载到图形中,而不会耗尽内存。
          • 在 Neo4j 浏览器中,您必须在这个 Cypher 前加上:auto,即:auto USING PERIODIC COMMIT LOAD CSV…这告诉 Neo4j 使用事务的自动检测。
            • 减少导入所需的内存量。
      • 优势
        • 可以在导入期间执行类型转换和一些“重构”。也就是说,可以自定义属性类型的管理方式,因此无需在加载后进行任何后处理。
        • 在导入数据之前,必须检查并可能清理数据。将使用的大型 CSV 数据文件已被清理。
        • 首先确定每个文件中的行数
          • LOAD CSV WITH HEADERS FROM '文件' AS ROW RETURN COUNT(ROW)
      • 改用Cypher导入步骤
        • 删除图中的所有节点和关系。
          • match (u:实体) detach delete u; match (n) detach delete n
        • 确保图中存在所有约束。
        • 导入电影 和流派数据。
        • 导入人员数据。
        • 导入 ACTED_IN 关系。
        • 导入 DIRECTED 关系。
        • 导入用户数据。
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值