删除,移动文件夹中的特定文件

# --*-- coding:utf-8 --*--
import os
import shutil
from lxml import etree

path = "/Users/rouckiechen/Desktop/china_court_result/guojia"
dst_path = "/Users/rouckiechen/Desktop/china_court_result/unknown_doc/guojia"

doc_list = os.listdir(path)
for i in doc_list:
    if i.startswith('.'):  # 删除.开头的文件
        os.remove(path + "/" + i)
    with open(path + "/" + i, encoding="utf-8") as f:  # 移除暂未提取到标题的文件
        text = f.read()
        html = etree.HTML(text)
        title_1 = "".join(html.xpath(r'//font[@class="MTitle"]/text()')).strip()
        title_2 = "".join(html.xpath(r'//div[@class="content_text"]/p[1]/strong/text()')).strip()
        title = title_1 if title_1 else title_2
        if not title:
            print("没标题", i)
            shutil.move(path + "/" + i, dst_path)

count = len(doc_list)  # 简单统计文件数目
print(count)

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值