提取手机号从文档中_从文本中提取手机号码的正则表达式是-CSDN博客

文章介绍了如何使用Python的re模块和正则表达式来有效地从文本中提取中国大陆的手机号码，同时避免匹配到非手机号的长数字串。提供的函数通过删除文本中的括号、空格和连字符，然后匹配11位数字的模式来实现这一功能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

import re

def extract_phone_numbers(text):
    # 中国手机号正则表达式
    pattern = r"(?<!\d)(1[3-9]\d{9})(?!\d)"
    # 提取出所有匹配项
    phone_numbers = re.findall(pattern, text)
    return phone_numbers

text = "张三的手机号码是13800138000，李四的手机号码是13988889999。"
phone_numbers = extract_phone_numbers(text)
print(phone_numbers)  # 输出：['13800138000', '13988889999']


# maybe a  better version 
def extract_phone_numbers(text):
    text = re.sub(r"[\(\)\s-]+", "", text)  # 将文本中的括号、空格及连字符 删除
    # 中国手机号正则表达式
    pattern =  r'\d{11}'
    # 提取出所有匹配项
    phone_numbers = re.findall(pattern, text)
    return phone_numbers

pattern 中的正则表达式用于匹配中国大陆手机号。让我们详细解释一下这个正则表达式的各个部分：

(?<!\d): 这是一个否定顺序环视（negative lookbehind），它表示匹配手机号前面不能有数字。换句话说，手机号前面的字符不能是 0-9 之间的任何一个数字。
(1[3-9]\d{9}): 这是手机号的主匹配部分。
- 1：表示手机号以数字 1 开头。
- [3-9]：表示手机号的第二位数字是 3 到 9 之间的任何一个数字。
- \d{9}：表示接下来是 9 个数字（\d 表示数字，{9} 表示重复 9 次）。
(?!\d): 这是一个否定顺序前瞻（negative lookahead），表示手机号后面不能有数字。换句话说，手机号后面的字符不能是 0-9 之间的任何一个数字。