如何从列表列表中制作平面列表？

最新推荐文章于 2024-07-22 15:19:55 发布

HuntsBot

最新推荐文章于 2024-07-22 15:19:55 发布

阅读量378

点赞数

文章标签：前端 actionscript 数据库 c++ photoshop

本文链接：https://blog.csdn.net/kalman2019/article/details/128264858

版权

问题描述：

我想展平这个列表列表：

[[1, 2, 3], [4, 5, 6], [7], [8, 9]]

进入：

[1, 2, 3, 4, 5, 6, 7, 8, 9]

解决方案1:

huntsbot.com精选全球7大洲远程工作机会，涵盖各领域，帮助想要远程工作的数字游民们能更精准、更高效的找到对方。

要展平列表 xss：

flat_list = [x for xs in xss for x in xs]

这相当于：

flat_list = []
for xs in xss:
    for x in xs:
        flat_list.append(x)

或者作为一个函数：

def flatten(xss):
    return [x for xs in xss for x in xs]

性能分析：

为了衡量性能，我们使用标准库中的 timeit 模块：

$ python -mtimeit -s't=[[1,2,3],[4,5,6], [7], [8,9]]*99' '[x for xs in xss for x in xs]'
10000 loops, best of 3: 143 usec per loop
$ python -mtimeit -s't=[[1,2,3],[4,5,6], [7], [8,9]]*99' 'sum(t, [])'
1000 loops, best of 3: 969 usec per loop
$ python -mtimeit -s't=[[1,2,3],[4,5,6], [7], [8,9]]*99' 'reduce(lambda x,y: x+y,t)'
1000 loops, best of 3: 1.1 msec per loop

解释：当有 T 个子列表时，基于 + 的方法（包括 sum 中的隐含使用）必然是 O(T2) —— 因为中间结果列表越来越长，在每一步都会分配一个新的中间结果列表对象，并且必须复制上一个中间结果中的所有项目（以及最后添加的一些新项目）。因此，为简单起见且不失一般性，假设您有 T 个子列表，每个子列表有 k 个项目：前 k 个项目被来回复制 T-1 次，后 k 个项目被复制 T-2 次，依此类推；总副本数是 x 的总和的 k 倍，对于从 1 到 T 排除的 x，即 k * (T2)/2。

列表推导式只生成一个列表，一次，并将每个项目（从其原始居住地复制到结果列表）也恰好一次。

一个优秀的自由职业者，应该有对需求敏感和精准需求捕获的能力，而huntsbot.com提供了这个机会

我尝试使用相同的数据进行测试，使用 itertools.chain.from_iterable : $ python -mtimeit -s'from itertools import chain; l=[[1,2,3],[4,5,6], [7], [8,9]]*99' 'list(chain.from_iterable(l))'。它的运行速度是此处显示的替代方法中最快的嵌套列表推导式的两倍多。

我发现语法很难理解，直到我意识到你可以把它想象成嵌套的 for 循环。对于 l 中的子列表：对于子列表中的项目：产量项目

[以林换树，以树换叶]可能更容易理解和应用。

@RobCrowell 这里也一样。对我来说，列表理解并不阅读正确，感觉有些不对劲——我似乎总是弄错并最终在谷歌上搜索。对我来说，这读起来是正确的 [leaf for leaf in tree for tree in forest]。我希望事情是这样的。我确信我在这里遗漏了一些关于语法的东西，如果有人能指出这一点，我将不胜感激。

每次我想要展平列表时，我都会一直在这里寻找，但这个 gif 是它的驱动力：i.stack.imgur.com/0GoV5.gif

解决方案2:

与HuntsBot一起，探索全球自由职业机会–huntsbot.com

您可以使用 itertools.chain()：

>>> import itertools
>>> list2d = [[1,2,3], [4,5,6], [7], [8,9]]
>>> merged = list(itertools.chain(*list2d))

或者您可以使用不需要使用 * 运算符解包列表的 itertools.chain.from_iterable()：

>>> import itertools
>>> list2d = [[1,2,3], [4,5,6], [7], [8,9]]
>>> merged = list(itertools.chain.from_iterable(list2d))

这种方法可以说比 [item for sublist in l for item in sublist] 更具可读性，而且似乎也更快：

$ python3 -mtimeit -s'l=[[1,2,3],[4,5,6], [7], [8,9]]*99;import itertools' 'list(itertools.chain.from_iterable(l))'
20000 loops, best of 5: 10.8 usec per loop
$ python3 -mtimeit -s'l=[[1,2,3],[4,5,6], [7], [8,9]]*99' '[item for sublist in l for item in sublist]'
10000 loops, best of 5: 21.7 usec per loop
$ python3 -mtimeit -s'l=[[1,2,3],[4,5,6], [7], [8,9]]*99' 'sum(l, [])'
1000 loops, best of 5: 258 usec per loop
$ python3 -mtimeit -s'l=[[1,2,3],[4,5,6], [7], [8,9]]*99;from functools import reduce' 'reduce(lambda x,y: x+y,l)'
1000 loops, best of 5: 292 usec per loop
$ python3 --version
Python 3.7.5rc1

* 是使 chain 不如列表理解那么简单的棘手问题。您必须知道，chain 仅将作为参数传递的迭代连接在一起，而 * 导致顶级列表扩展为参数，因此 chain 将所有这些迭代连接在一起，但不会进一步下降。我认为这使得理解比在这种情况下使用链更具可读性。

@TimDierks：我不确定“这需要您理解 Python 语法”是反对在 Python 中使用给定技术的论据。当然，复杂的用法可能会让人感到困惑，但是“splat”运算符通常在许多情况下都很有用，而且这并不是以一种特别晦涩的方式使用它；拒绝所有对初学者来说不一定显而易见的语言功能意味着您将一只手绑在背后。当你在它的时候，也可以扔掉列表推导；来自其他背景的用户会发现for 循环反复append 更加明显。

创建一个中间元组。！ from_iterable 直接从顶部列表中获取嵌套列表。

为了使其更具可读性，您可以创建一个简单的函数：def flatten_list(deep_list: list[list[object]]): return list(chain.from_iterable(deep_list))。类型提示提高了正在发生的事情的清晰度（现代 IDE 会将其解释为返回 list[object] 类型）。

解决方案3:

一个优秀的自由职业者，应该有对需求敏感和精准需求捕获的能力，而huntsbot.com提供了这个机会

作者注：这是非常低效的。但是很有趣，因为 monoids 很棒。

>>> xss = [[1, 2, 3], [4, 5, 6], [7], [8, 9]]
>>> sum(xss, [])
[1, 2, 3, 4, 5, 6, 7, 8, 9]

sum 对可迭代 xss 的元素求和，并使用第二个参数作为求和的初始值 []。（默认初始值为 0，它不是列表。）

因为您正在对嵌套列表求和，所以您实际上得到 [1,3]+[2,4] 作为 sum([[1,3],[2,4]],[]) 的结果，它等于 [1,3,2,4]。

请注意，仅适用于列表列表。对于列表列表，您将需要另一种解决方案。

这非常整洁和聪明，但我不会使用它，因为它阅读起来很混乱。

这是画家的 Shlemiel 算法joelonsoftware.com/articles/fog0000000319.html——不必要的低效和不必要的丑陋。

列表上的追加操作形成 Monoid，这是在一般意义上考虑 + 操作的最方便的抽象之一（不仅限于数字）。因此，对于将列表（正确）处理为幺半群，这个答案值得我 +1。虽然性能令人担忧......

由于总和的二次方，这是一种非常低效的方法。

这篇文章解释了低效率的数学mathieularose.com/how-not-to-flatten-a-list-of-lists-in-python

解决方案4:

保持自己快人一步,享受全网独家提供的一站式外包任务、远程工作、创意产品订阅服务–huntsbot.com

我用 perfplot 测试了大多数建议的解决方案（我的一个宠物项目，基本上是 timeit 的包装），并发现

import functools
import operator
functools.reduce(operator.iconcat, a, [])

成为最快的解决方案，无论是在连接许多小列表和少数长列表时。（operator.iadd 同样快。）

一个更简单且可接受的变体是

out = []
for sublist in a:
    out.extend(sublist)

如果子列表的数量很大，这会比上面的建议差一点。

https://i.stack.imgur.com/82YEG.png

https://i.stack.imgur.com/Mo7iy.png

重现情节的代码：

import functools
import itertools
import operator

import numpy as np
import perfplot


def forfor(a):
    return [item for sublist in a for item in sublist]


def sum_brackets(a):
    return sum(a, [])


def functools_reduce(a):
    return functools.reduce(operator.concat, a)


def functools_reduce_iconcat(a):
    return functools.reduce(operator.iconcat, a, [])


def itertools_chain(a):
    return list(itertools.chain.from_iterable(a))


def numpy_flat(a):
    return list(np.array(a).flat)


def numpy_concatenate(a):
    return list(np.concatenate(a))


def extend(a):
    out = []
    for sublist in a:
        out.extend(sublist)
    return out


b = perfplot.bench(
    setup=lambda n: [list(range(10))] * n,
    # setup=lambda n: [list(range(n))] * 10,
    kernels=[
        forfor,
        sum_brackets,
        functools_reduce,
        functools_reduce_iconcat,
        itertools_chain,
        numpy_flat,
        numpy_concatenate,
        extend,
    ],
    n_range=[2 ** k for k in range(16)],
    xlabel="num lists (of length 10)",
    # xlabel="len lists (10 lists total)"
)
b.save("out.png")
b.show()

对于巨大的嵌套列表，'list(numpy.array(a).flat)' 是上述所有函数中最快的。

有没有办法做一个 3-d perfplot？数组的平均大小是多少？

@Sara 你能定义“巨大”吗？

在 Rossetta Code (link) 的测试示例中尝试了 numpy_flat，得到了 VisibleDeprecationWarning: Creating an ndarray from ragged nested sequences (which is a list-or-tuple of lists-or-tuples-or ndarrays with different lengths or shapes) is deprecated. If you meant to do this, you must specify 'dtype=object' when creating the ndarray

上面遗漏了一个选项，对于我的特定情况，它显示得更快，我只是 items = []; for sublist in a: items.extend(sublist); return sublist

解决方案5:

与HuntsBot一起，探索全球自由职业机会–huntsbot.com

使用 functools.reduce，它将累积列表 xs 添加到下一个列表 ys：

from functools import reduce
xss = [[1,2,3], [4,5,6], [7], [8,9]]
out = reduce(lambda xs, ys: xs + ys, xss)

输出：

[1, 2, 3, 4, 5, 6, 7, 8, 9]

使用 operator.concat 的更快方法：

from functools import reduce
import operator
xss = [[1,2,3], [4,5,6], [7], [8,9]]
out = reduce(operator.concat, xss)

输出：

[1, 2, 3, 4, 5, 6, 7, 8, 9]

reduce(operator.concat, l) 就像一个魅力。添加 sorted(list(set(reduce(operator.concat, l))) 以从列表列表中获取 sorted list 个 unique 个值。

解决方案6:

HuntsBot周刊–不定时分享成功产品案例，学习他们如何成功建立自己的副业–huntsbot.com

这是适用于数字、字符串、嵌套列表和混合容器的通用方法。这可以使简单和复杂的容器变平（另见演示）。

代码

from typing import Iterable 
#from collections import Iterable                            # < py38


def flatten(items):
    """Yield items from any nested iterable; see Reference."""
    for x in items:
        if isinstance(x, Iterable) and not isinstance(x, (str, bytes)):
            for sub_x in flatten(x):
                yield sub_x
        else:
            yield x

笔记：

在 Python 3 中，flatten(x) 中的 yield 可以替换 flatten(x) 中的 sub_x：yield sub_x

在 Python 3.8 中，抽象基类从 collection.abc 移到了类型模块。

演示

simple = [[1, 2, 3], [4, 5, 6], [7], [8, 9]]
list(flatten(simple))
# [1, 2, 3, 4, 5, 6, 7, 8, 9]

complicated = [[1, [2]], (3, 4, {5, 6}, 7), 8, "9"]              # numbers, strs, nested & mixed
list(flatten(complicated))
# [1, 2, 3, 4, 5, 6, 7, 8, '9']

参考

此解决方案是根据 Beazley, D. 和 B. Jones 的配方修改的。配方 4.14，Python Cookbook 第 3 版，O’Reilly Media Inc. Sebastopol，CA：2013。

找到了一个较早的 SO 帖子，可能是原始演示。

我只是写了几乎相同的内容，因为我没有看到您的解决方案……这是我寻找的“递归展平完整的多个列表”……（+1）

@MartinThoma 非常感谢。仅供参考，如果扁平化嵌套迭代对您来说是一种常见的做法，那么有一些第三方包可以很好地处理这个问题。这可以避免重新发明轮子。在这篇文章中讨论的其他内容中，我提到了 more_itertools。干杯。

也许 traverse 也可以是这种树的一个好名字，而我会通过坚持嵌套列表来保持它的通用。

您可以检查 if hasattr(x, '__iter__') 而不是导入/检查 Iterable，这也会排除字符串。

如果嵌套列表之一具有字符串列表，则上面的代码似乎不起作用。 [1, 2, [3, 4], [4], [], 9, 9.5, 'ssssss', ['str', 'sss', 'ss'], [3, 4, 5]] 输出： - [1, 2, 3, 4, 4, 9, 9.5, 'ssssss', 3, 4, 5]

解决方案7:

huntsbot.com高效搞钱，一站式跟进超10+任务平台外包需求

要展平深度嵌套的数据结构，请使用 iteration_utilities.deepflatten1：

>>> from iteration_utilities import deepflatten

>>> l = [[1, 2, 3], [4, 5, 6], [7], [8, 9]]
>>> list(deepflatten(l, depth=1))
[1, 2, 3, 4, 5, 6, 7, 8, 9]

>>> l = [[1, 2, 3], [4, [5, 6]], 7, [8, 9]]
>>> list(deepflatten(l))
[1, 2, 3, 4, 5, 6, 7, 8, 9]

它是一个生成器，因此您需要将结果转换为 list 或显式迭代它。

要仅展平一个级别，并且如果每个项目本身都是可迭代的，您还可以使用 iteration_utilities.flatten，它本身只是 itertools.chain.from_iterable 的一个薄包装：

>>> from iteration_utilities import flatten
>>> l = [[1, 2, 3], [4, 5, 6], [7], [8, 9]]
>>> list(flatten(l))
[1, 2, 3, 4, 5, 6, 7, 8, 9]

只是添加一些时间（基于不包括此答案中提供的功能的 Nico Schlömer’s answer）：

https://i.stack.imgur.com/3D8uN.png

这是一个对数对数图，以适应跨越的巨大范围的值。对于定性推理：越低越好。

结果表明，如果可迭代对象仅包含少数内部可迭代对象，则 sum 将是最快的，但对于长可迭代对象，只有 itertools.chain.from_iterable、iteration_utilities.deepflatten 或嵌套推导具有合理的性能，其中 itertools.chain.from_iterable 是最快的（如Nico Schlömer 已经注意到）。

from itertools import chain
from functools import reduce
from collections import Iterable  # or from collections.abc import Iterable
import operator
from iteration_utilities import deepflatten

def nested_list_comprehension(lsts):
    return [item for sublist in lsts for item in sublist]

def itertools_chain_from_iterable(lsts):
    return list(chain.from_iterable(lsts))

def pythons_sum(lsts):
    return sum(lsts, [])

def reduce_add(lsts):
    return reduce(lambda x, y: x + y, lsts)

def pylangs_flatten(lsts):
    return list(flatten(lsts))

def flatten(items):
    """Yield items from any nested iterable; see REF."""
    for x in items:
        if isinstance(x, Iterable) and not isinstance(x, (str, bytes)):
            yield from flatten(x)
        else:
            yield x

def reduce_concat(lsts):
    return reduce(operator.concat, lsts)

def iteration_utilities_deepflatten(lsts):
    return list(deepflatten(lsts, depth=1))


from simple_benchmark import benchmark

b = benchmark(
    [nested_list_comprehension, itertools_chain_from_iterable, pythons_sum, reduce_add,
     pylangs_flatten, reduce_concat, iteration_utilities_deepflatten],
    arguments={2**i: [[0]*5]*(2**i) for i in range(1, 13)},
    argument_name='number of inner lists'
)

b.plot()

免责声明：我是那个图书馆的作者

解决方案8:

HuntsBot周刊–不定时分享成功产品案例，学习他们如何成功建立自己的副业–huntsbot.com

以下对我来说似乎最简单：

>>> import numpy as np
>>> l = [[1, 2, 3], [4, 5, 6], [7], [8, 9]]
>>> print(np.concatenate(l))
[1 2 3 4 5 6 7 8 9]

OP 没有提到他们想使用 numpy。 Python 有很好的方法来做到这一点，而不依赖于库

解决方案9:

huntsbot.com洞察每一个产品背后的需求与收益，从而捕获灵感

考虑安装 more_itertools 软件包。

> pip install more_itertools

它附带了 flatten 的实现（source，来自 itertools recipes）：

import more_itertools


lst = [[1, 2, 3], [4, 5, 6], [7], [8, 9]]
list(more_itertools.flatten(lst))
# [1, 2, 3, 4, 5, 6, 7, 8, 9]

注意：如 docs 中所述，flatten 需要一个列表列表。请参阅下面的扁平化更多不规则输入。

从 2.4 版开始，您可以使用 more_itertools.collapse（source，由 abarnet 提供）来展平更复杂的嵌套迭代。

lst = [[1, 2, 3], [4, 5, 6], [7], [8, 9]]
list(more_itertools.collapse(lst)) 
# [1, 2, 3, 4, 5, 6, 7, 8, 9]

lst = [[1, 2, 3], [[4, 5, 6]], [[[7]]], 8, 9]              # complex nesting
list(more_itertools.collapse(lst))
# [1, 2, 3, 4, 5, 6, 7, 8, 9]

如果您有能力为您的项目添加一个包 - 这个答案是最好的

当所有元素都未列出时，它会失败。（例如 lst=[1, [2,3]]）。当然整数是不可迭代的。

另外，请注意字符串列表将被展平为字符列表

解决方案10:

保持自己快人一步,享受全网独家提供的一站式外包任务、远程工作、创意产品订阅服务–huntsbot.com

您的函数不起作用的原因是因为 extend 就地扩展了一个数组并且不返回它。您仍然可以使用以下内容从 lambda 返回 x：

reduce(lambda x,y: x.extend(y) or x, l)

注意：在列表中，extend 比 + 更有效。

extend 最好用作 newlist = []、extend = newlist.extend、for sublist in l: extend(l)，因为它避免了 lambda、x 上的属性查找和 or 的（相当大的）开销。

对于 python 3 添加 from functools import reduce

解决方案11:

huntsbot.com汇聚了国内外优秀的初创产品创意，可按收入、分类等筛选，希望这些产品与实践经验能给您带来灵感。

matplotlib.cbook.flatten() 将适用于嵌套列表，即使它们的嵌套比示例更深。

import matplotlib
l = [[1, 2, 3], [4, 5, 6], [7], [8, 9]]
print(list(matplotlib.cbook.flatten(l)))
l2 = [[1, 2, 3], [4, 5, 6], [7], [8, [9, 10, [11, 12, [13]]]]]
print(list(matplotlib.cbook.flatten(l2)))

结果：

[1, 2, 3, 4, 5, 6, 7, 8, 9]
[1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13]

这比 underscore._.flatten 快 18 倍：

Average time over 1000 trials of matplotlib.cbook.flatten: 2.55e-05 sec
Average time over 1000 trials of underscore._.flatten: 4.63e-04 sec
(time for underscore._)/(time for matplotlib.cbook) = 18.1233394636