深入理解Python函数式编程：从data-science-ipython-notebooks项目学习-CSDN博客

本文链接：https://blog.csdn.net/gitblog_01072/article/details/148360800

深入理解Python函数式编程：从data-science-ipython-notebooks项目学习

data-science-ipython-notebooks donnemartin/data-science-ipython-notebooks: 是一系列基于 IPython Notebook 的数据科学教程，它涉及了 Python、 NumPy、 pandas、 SQL 等多种数据处理工具。适合用于学习数据科学和分析，特别是对于需要使用 Python 和 SQL 等工具进行数据分析和处理的场景。特点是数据科学教程、IPython Notebook、Python、SQL。项目地址: https://gitcode.com/gh_mirrors/da/data-science-ipython-notebooks

Python作为一门多范式编程语言，其函数式编程特性在数据科学领域有着广泛应用。本文基于data-science-ipython-notebooks项目中的函数式编程内容，系统性地介绍Python函数式编程的核心概念和技术要点。

函数作为一等对象

在Python中，函数被视为一等对象(first-class objects)，这意味着函数可以像其他对象一样被传递、赋值和操作。这一特性为数据清洗和转换提供了极大的灵活性。

class TransformUtil:
    @classmethod
    def clean_strings(cls, strings, ops):
        result = []
        for value in strings:
            for function in ops:
                value = function(value)
            result.append(value)
        return result

这种设计模式允许我们将多个转换函数组合在一起，形成数据处理流水线。例如，我们可以轻松地组合str.strip、自定义的remove_punctuation和str.title函数来处理字符串数据。

实际应用场景：在数据预处理阶段，这种函数组合的方式可以构建复杂的数据清洗流程，每个函数专注于单一职责，提高代码的可维护性和复用性。

Lambda函数：简洁的匿名函数

Lambda函数是Python中创建匿名函数的快捷方式，特别适合在需要简单函数作为参数的场景中使用。

strings = ['foo', 'bar,', 'baz', 'f', 'fo', 'b', 'ba']
strings.sort(key=lambda x: len(list(x)))

最佳实践：

当函数逻辑非常简单（通常只包含一个表达式）时使用lambda
避免在lambda中编写复杂逻辑，复杂逻辑应该定义为常规函数
在需要函数作为参数的函数（如map、filter、sorted等）中使用lambda可以提高代码可读性

闭包：捕获状态的函数工厂

闭包(Closure)是指能够记住并访问其词法作用域中变量的函数，即使该函数在其词法作用域之外执行。

def make_watcher():
    dict_seen = {}
    
    def watcher(x):
        if x in dict_seen:
            return True
        else:
            dict_seen[x] = True
            return False
        
    return watcher

闭包的应用场景：

装饰器实现
状态保持
函数工厂（根据参数生成特定行为的函数）

注意事项：闭包会延长变量的生命周期，可能导致内存泄漏，需要谨慎使用。

可变参数：*args和**kwargs

Python提供了灵活的形参定义方式，可以处理不确定数量的参数。

def foo(func, arg, *args, **kwargs):
    print('arg: %s', arg)
    print('args: %s', args)
    print('kwargs: %s', kwargs)
    print('func result: %s', func(args))

使用场景：

编写通用包装函数
实现函数装饰器
需要向后兼容的函数接口
参数传递（将参数原样传递给另一个函数）

柯里化：部分参数应用

柯里化(Currying)是指通过固定函数的部分参数来创建新函数的技术。

from functools import partial

def add_numbers(x, y):
    return x + y

add_five = partial(add_numbers, 5)

柯里化的优势：

创建专用函数，提高代码可读性
简化函数调用
便于函数组合

数据科学中的应用：在pandas中，柯里化常用于创建专门的时间序列处理函数。

生成器：惰性求值的序列

生成器(Generator)是一种特殊的迭代器，它按需生成值，而不是一次性生成所有值。

def squares(n=5):
    for x in xrange(1, n + 1):
        yield x ** 2

生成器的优势：

内存效率高（特别是处理大数据集时）
可以表示无限序列
支持管道式处理（多个生成器可以串联）

生成器表达式是创建生成器的简洁语法：

gen = (x ** 2 for x in xrange(1, 6))

itertools模块：强大的迭代工具

itertools模块提供了一系列高效的迭代器构建块，特别适合处理数据流。

import itertools
first_letter = lambda x: x[0]
strings = ['foo', 'bar', 'baz']
for letter, gen_names in itertools.groupby(strings, first_letter):
    print letter, list(gen_names)

常用itertools函数：

| 函数 | 描述 | 典型应用场景 | |---------------|-----------------------------|--------------------------| | imap | 生成器版本的map函数 | 大数据集的惰性转换 | | ifilter | 生成器版本的filter函数 | 大数据集的惰性过滤 | | combinations | 生成所有可能的无序组合 | 组合分析、特征组合 | | permutations | 生成所有可能的有序排列 | 序列分析、排列计算 | | groupby | 按键值分组 | 数据分组聚合 |