python随机生成中文字符串_用Python生成随机UTF-8字符串

下面是一个示例函数,它可能创建一个随机的格式良好的UTF-8序列,如Unicode 5.0.0的表3-7所定义:#!/usr/bin/env python3.1

# From Table 3–7 of the Unicode Standard 5.0.0

import random

def byte_range(first, last):

return list(range(first, last+1))

first_values = byte_range(0x00, 0x7F) + byte_range(0xC2, 0xF4)

trailing_values = byte_range(0x80, 0xBF)

def random_utf8_seq():

first = random.choice(first_values)

if first <= 0x7F:

return bytes([first])

elif first <= 0xDF:

return bytes([first, random.choice(trailing_values)])

elif first == 0xE0:

return bytes([first, random.choice(byte_range(0xA0, 0xBF)), random.choice(trailing_values)])

elif first == 0xED:

return bytes([first, random.choice(byte_range(0x80, 0x9F)), random.choice(trailing_values)])

elif first <= 0xEF:

return bytes([first, random.choice(trailing_values), random.choice(trailing_values)])

elif first == 0xF0:

return bytes([first, random.choice(byte_range(0x90, 0xBF)), random.choice(trailing_values), random.choice(trailing_values)])

elif first <= 0xF3:

return bytes([first, random.choice(trailing_values), random.choice(trailing_values), random.choice(trailing_values)])

elif first == 0xF4:

return bytes([first, random.choice(byte_range(0x80, 0x8F)), random.choice(trailing_values), random.choice(trailing_values)])

print("".join(str(random_utf8_seq(), "utf8") for i in range(10)))

由于Unicode标准的庞大性,我无法对此进行彻底的测试。还要注意字符的分布并不均匀(但是序列中的每个字节都是)。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值