【python】生成中文假文(Chinese lorem ipsum)

该Python代码实现了从常用汉字中随机组合生成中文假文的功能,用于排版检查。假文生成基于《现代汉语语料词频表》,支持按字数生成和保留原文格式的翻译测试。此外,代码中提到官方语料库生成的假文略显官腔。
摘要由CSDN通过智能技术生成

zh_lorem_python

用python生成中文假文(Chinese lorem ipsum),一个简单的小功能。

功能

按给定字数或者给定原始文本生成对应长度的中文假文,以供排版检查等使用。

例如,下面是「用假文测试翻译后latex排版效果」的应用,系从给定原始文本生成假文,并保留了原文中的公式($...$环境):
在这里插入图片描述

实现方法

从《现代汉语语料词频表(教育部,2005)》

的前500个词中,随机选词组成句子,并在随机位置插入标点符号和分段符号。

(吐槽一下,这官方语料库生成出来的假文都有点官腔……)

使用例

初始化一个lorem_zh()实例后:

  • .bynum()方法生成一段给定字数的中文假文;
  • .fromen()则根据给定空格分割文本生成中文假文,并且支持保留原文中的语句(就像上面的图片里那样,主要用于测试翻译后文本的排版)。
lrm_zh=lorem_zh()
print(lrm_zh.bynum(200),'\n')
print(lrm_zh.fromen("never gonna let you down, \n never gonna make you cry".replace("gonna","xx01")).replace("xx01","gonna"))

学生教育文化作用人民完全作为物质起来。声图六会需要可能学校。并不她没物质。坐每中国一,干整个此结合这样斗争拿者次所以手日本与:第一建立快;当较没有随着教育来为什么出这个内大家代表每:所谓。现在一定那个水东西他既:眼睛间以全方法拿,这时而是还日干部人们包括八!世界直接, 现象吧第二五使用他们好外有它们先曾水平作品,就是按才能决定文化拿提高,吃水平水平呢;学眼睛正在可能办法。向小。年少地方劳动走部分图站指出。

处gonna社会工作者。
讲gonna与人们而是。

.bynum()方法中设置multipars=1来生成自动分段的长假文。

print(lrm_zh.bynum(1000,multipars=1))

作为而然而!则这些话政策学全国而是思想有些打非但类:不是特点关于呀听因为完成有关。或建立此所先生他们因最最实际那些包括美国时至:已经不仅无、内发展并岁它、名件农民间应结构她东西目前关于新出来人:变能力一切就是。部分制度性质正确回来声而是参加不过位看见然而句政府本?群众她好上结构多社会主义实践看见。条件看见间系统、如果为了工作走最中国一样她有些民族应该和,觉得一个工业条数实验一点之关于政府。注意特点名决定坐、不会部分分这里实现事有关造成写看到,谁。你政策参加及想眼睛等一切让类环境,并且正那地年就下来制度正确句、们如果时期不会文化工人斗争两,写作农民产品环境关于社会主义分析相了问题,向呀又以及已指条少,当然产生有任务呀,的在过、规定大量经验种经济以小说方面?法同人民被个提高有个方法。本制度很。同志元能有人、认为。

位增加所谓要提高例如便四用出来基础,甚至你出现想看见由指意义,三人们认识现在虽然当然象行为分可能呀由。利用!不能当时并不。根据看到也条现象虽然结构图任何现象少呢建设工作、正在时候它们然而它们。才能一点水平写时期可是几象:所以坐连这个种到较把引起又:甚至注意最少被经验过去带文化。任务通过作品几、科学增加人们:知道不仅先单位二,下者个多一定结合具体每、又还有引起拿反映当然不过不能更再长内而那。各种。死受月:没次因为任务能力并且教育头地位;应说岁根据运动原因起来反映感到变以基本不断人又,文化一起名之后行为天这因素一个该得青年各,非您这里党话还有教育经验语言,干部教育一个可是社会主义看见建立工人根据会达到指出?低月好环境注意大量方面生活?结果成为联系增加然而但是:也就矛盾钱十分小低商品总影响成为点:都过程表示他们任何您不仅要因;精神怎样本内有的先生、几原因历史!则此知道起地方才不是见:觉得反映企业当。

需要法人们这里年上受到中国!先问将活动最在!自然时看着活动件人至等太更以及领导,应该主要有关十矛盾人民前;同志后来、而声利用那些时形式然而打已起当然情况从作品。出心为什么方面道相所为什么看见不仅?十带要求啦事个人就是指还是元站创造。工业他们实践连作为再真党只,党与物质基础老单位数甚至改变目前之后那些死看见最,出现;到。出现如果;为了认为!直接被这时政治大家大家应。成为政策创造会问题企业及看到此任务讲会这?处活动名实践关于就是曾对人类这儿并不低会,这个再斗争觉得利用问题太曾。

代码全文

import random,re

class lorem_zh:
        def __init__(self):
            self.seed =["的","了","在","是","和","一","这","有","他","我","也","不","就","地","着","中","上","说","都","人","个","对","种","把","为","要","你","而","来","我们","又","一个","与","从","年","到","还","它","大","等","她","两","去","没有","里","得","时","多","他们","发展","用","那","以","所","很","可以","使","但","自己","小","之","能","下","或","看","就是","被","什么","三","这个","会","好","可","后","这样","给","向","社会"
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值