用editplus整理4万行不规范的公务员考试常识文档,并用小猫统计导入discuz数据库(文档供下载)

69 篇文章 4 订阅
37 篇文章 0 订阅

    尝试将多行、不规范文档通过使用editplus正则表达式整理后导入discuz数据库。为什么不用MS word或者wps?因为操作4万行的文档, word或者wps会直接奔溃。


    该文档为公务员考试常识题,共有4万多行,格式如下:

2.属于国家一类保护动物的是:->天鹅,
3.举重时运动员为什么搓白粉?->吸取手上的汗,
4.非洲国家边界按什么划分的最多?->经线或纬线,
5.举重比赛的级别是按:->按体重划分,
6.问仓储超市与其它超市最大的不同点是什么:->储售场地合一,
7.18世纪德国贵族热衷于收集并定制各种树木做的“木头书”,以木头做成的盒子,盒面用树皮制作,你知道盒子里面都用来装什么?->树叶、果实等,
8.鸵鸟受到惊吓或敌害时可能会:->会将头低垂到与地面平行,羽毛竖起,
9.最早制造香水瓶所用的原料是:->石膏,
10.持有哪种“伤残证书”,可在乘坐火车时享受购票减价待遇?->革命伤残军人证,
11.最早的四冲程内燃机用的是什么燃料?->煤气,


    尝试整理成的格式为:

序号,问题,答案
2,属于国家一类保护动物的是:,天鹅

    需要做的工作:

1、序号后面的“.”改为“,”;

2、由于半角逗号“,”是csv文件分隔符,因此除分隔位置之外的所有半角逗号都改成全角逗号;

3、“->”改成半角逗号;

4、每行最后的逗号直接删除;

    具体步骤:

1、首先将全部半角逗号替换为全角逗号。

由于有的行中有多个半角逗号,每个半角逗号都会使程序进行字段分割,。这步骤不需要使用正则表达式。这一步一共替换了43672个半角逗号。

查找:,

替换:,


2、全部半角双引号删除或者改为全角双引号。

普通替换。

查找:"

替换:“


3、序号后面的“.”改为半角逗号。

使用正则表达式替换。

查找:^([0-9]*[0-9])\.

替换:\1,


4、“->”改成半角逗号。

普通替换。

查找:->

替换:,


5、删除每行结尾的全角逗号。

使用正则表达式替换。

查找:,$

替换:


    第一行加上“序号,问题,答案”,至此,文档格式整理为:

序号,问题,答案
2,属于国家一类保护动物的是:,天鹅
3,举重时运动员为什么搓白粉?,吸取手上的汗
4,非洲国家边界按什么划分的最多?,经线或纬线
5,举重比赛的级别是按:,按体重划分
6,问仓储超市与其它超市最大的不同点是什么:,储售场地合一
csv文件保存为utf8格式。
    

用小猫统计导入上面整理好的csv文件。导入过程中,有一行存在符号\,导致程序戳侧,改为用双引号包含之:“\”,或者直接删除该行。然后删除刚建好的表内数据,再次导入。导入结果:

向表:BGTJ 插入数据完成。
共插入40910条数据。
用时(毫秒):42667



    上面整个操作,熟练的情况下,不用10分钟。

    导入过程中发现仍有少量其他格式问题,如果需要,可以继续调整。此处不再赘述。

    整理好的文档,点此处下载若要使该表能被discuz内置函数正常调用,建表时,表名称前面应加上discuz表前缀。



  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值