【模拟算法】【无个人隐私问题的汉语数据集!】Windows系统中的汉语文件夹路径地址模拟器

数据准备:汉语权威词典,本例中选择了《辞海》

(注:我今天发现了一个更简单的方法,尤其是,当你已经装好了jieba库的时候,可以直接使用jieba库自带的词库,这样还可以与jieba库联动——通过使用命令jieba.get_dict_file(),你将获取到jieba库默认词库的文件地址,完全免费开源)

# 生成数据
import numpy as np
import pandas as pd

np.random.seed(42)
## 抓取辞海的全部词语,搭建较为完整全面的汉语词库
词语们 = pd.read_excel('辞海/辞海.xlsx')['words'].values

有时候文件名中会出现标点符号:

# 修改了破折号与省略号,增加了空格
文件名常用标点符号 = list(set([' ', '.', ',', ';', '-', '_', '(', ')', '[', ']', '{', '}', "'", '&', '@', '#', '$', '%', '^', '=', '+', '!', '-', ',', '。', '!', '?', '(', ')', '、', '、', '“', '”', '‘', '’', ':', ';', '[', ']', '{', '}', '《', '》', '〈', '〉', '——', '—', '……', '…']))

有时候还会有标号,而且标号一般比较常见:

TF = [True] + [False]*24 # 标号出现的概率
Numbering = list(map(str, range(200)))

现在,先准备文件夹名(不考虑扩展名,使用者后续可以自己在本算法后面补上):

def 内容():
    num = np.random.choice([1]*16+[2]*8+[3]*4+[4]*2+[5])
    文件名 = ''
    numbered = 0
    for i in range(2):
        if np.random.choice(TF):
            文件名 += chr(np.random.randint(65, 91)) # 大写字母
            numbered = 1
        if np.random.choice(TF):
            文件名 += chr(np.random.randint(97, 123)) # 小写字母
            numbered = 1
        if np.random.choice(TF):
            文件名 += np.random.choice(Numbering)
            numbered = 1
        if i==1 and numbered and np.random.choice([True, False, False]):
            文件名 += np.random.choice(['.', '. ', ' ']*2 + [':', '、'])
    for j in range(num):
        文件名 += np.random.choice(词语们)
        if np.random.choice(TF):
            文件名 += np.random.choice(文件名常用标点符号)
    for i in range(2):
        if np.random.choice(TF):
            文件名 += chr(np.random.randint(65, 91)) # 大写字母
        if np.random.choice(TF):
            文件名 += chr(np.random.randint(97, 123)) # 小写字母
        if np.random.choice(TF):
            文件名 += np.random.choice(Numbering)
    return 文件名

有了文件夹名,才能有文件夹的“存放”地址:

def 随机地址():
    地址 = ('C', 'D', 'E', 'F', 'G', 'H')[np.random.randint(6)] +':\\'
    depth = np.random.choice(range(20)) # 路径最深度
    for j in range(depth):
        地址 += 内容()+'\\'
    if depth==0:
        return 地址
    else:
        return 地址[:-1]

用法展示(特别声明:本算法生成内容可能包含观点,但本算法生成内容不代表任何观点,更不代表本人观点,因为这是基于辞海词库的纯随机算法本文算法真正的用意,就是为了探索Windows操作系统中的文件夹名和文件路径的格式要求,并为后续模型识别文件名和文件路径打好数据基础)

批量模拟中文文件名

for j in range(10):
    print(内容())
Y群架.
僁窣k
游徼玄解
观想
醉侣侍燕清腴N
神门
龅齿阶级性皦如
曜象决口求知3
浇俗
嘴快舌长汗津津吹奏庄稼活渀湃12

批量模拟中文文件地址(Windows系统中的)

for i in range(10):
    print(随机地址())
G:\s112儒喆\V乘驾\扎伐子78\躯腔犬儒萍乡市\救助\余风\e 女声烟客\h赤海崩陨表禡同爨\座无虚席\禁物美雨欧风愧怕\金鋺坐收渔利\殿魁幽夐堡子\谈剧当价
H:\扇构T
C:\营处\62.秋毫无犯\泉骨铜升秘书来年\义不容默豆凑22\yO好乐中仪具存珠璧门到门运输t\E195边琐首涂村路歧\飞飞落照\黍穗\炫煌\慈训招待^惨尔V\华腴\讹兽内三院忿憾\q:避尘五行相胜
C:\机场灯塔委蜕推情准理)诗杰\h重施故伎椒第’y\部县O\弘通祝顶红150\红藕天无二日\扑满之败粪丸\储胥看官\还睇\永存坐号佣经\水皮\楯楹35\弦朔
C:\Y冷意大壮舞\轻嘴薄舌\歇歇穷露\扰畜铺房\催眠术灌尊\耳齐P\遗性
F:\176山麓仰荷款款轻轻U\军备\江淹梦笔祺祥\哰叨\新篇这早晚儿耗粮迈越\娴丽贫相\意表\絻钺‘大宪台五盖〈\赋诗\犂犋\柏林作证拔萃出类\秤匠\133紫轪\重轑虫尾
C:\风末旨信Z\夜店蓬户黔烝\强耕\赍志而殁\擅宠口体\碱性氧化物jb32\m放情\废后御林军\脱售渊沼撒打充溢\呈应余事缉宁\璇宫北门之寄G
G:\羞答答咨逮保票\縏袠C\杯筊
C:\适才h\量力而动煎靡132\Y芜杂\泪如泉涌w\q. 惊靁法施冷藏\一表非凡弩行w\54余緖蚝壳窗\a.岂弟君子I\麻鹊斑\罗纹砚眵眼L\48迫陿直命\沸踊\烛理\扶冯鳌甲\拘审弱絮髦子杯血\开宗明义171\易如拾芥挨肩搭背\小事糊涂,大事不糊涂\w事刃;
F:\事济\诘诈嘲谤有眼睛丰城剑d122\涂附\穷绌\伏手\锦套头配给

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值