python txt小说文本处理,按章节分割小说

python txt小说文本处理,按章节分割小说

初衷

用JSP搭建了个本地的小说网站,网站数据基本靠python在网上抓取,有些是txt文档,没法直接存入数据库,所有需要对文本进行分割之后在存入数据库

准备工作

所需要的包:re os pymysql
先在cmd用pip list查看是否又安装,如果没安装用pip install 安装相应的包
例如:
pip install pymysql

源码分享

该源码目前有个BUG就是必须在最后一行加入一个章节名字比如: 第100章,不然最后一张会存不上
有能力的可自行完善,因为我处理的文本量不多

import re
import os
import pymysql


class text_processing(object):
    # 类的初始化操作
    def __init__(self):
        # txt文本目录
        self.source_path = './../novel/已格式化好的文本/'
        # 用正则表达式匹配txt文档中的第N章
        self.section_re = re.compile("^第.*章.*?.*?")
        self.split_flag = u'章'
        # 数据库链接地址
        self.host = '192.168.3.33'
        # 数据库用户名
        self.user = '192_168_3_33'
        # 数据库密码
        self.passwd = 'iaJLHKPdm3YjDchd'
        # 数据库名字
        self.db = '192_168_3_33'

    # 获取到文件夹里面的txt文件
    def get_text_file_url(self):
        # 得到文件夹下的所有文件名称
        files = os.listdir(self.source_path)
        
  • 0
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值