Python 检验文本中的帖子是否被删

最新推荐文章于 2024-08-15 17:46:29 发布

Orange_J

最新推荐文章于 2024-08-15 17:46:29 发布

阅读量401

点赞数

分类专栏： Python

本文链接：https://blog.csdn.net/juhaotian/article/details/39431831

版权

该Python脚本通过读取文件中的每一行，查找包含'http'到'shtml'的URL，然后访问该URL并解析网页标题。如果标题包含'分类信息'，则认为该帖子已被删除，相关信息将写入'del.txt'文件。

摘要由CSDN通过智能技术生成

#coding:cp936

import urllib
from bs4 import BeautifulSoup

def isExist(line):
    flag = 3 #3代表此行格式不合法
    start_location = line.find('http')
    end_location = line.find('shtml')
    if(start_location == -1):
        url = ''
    else:
        url = line[start_location:end_location+5]

    if(url != ''):
        r = urllib.urlopen(url)
        text = r.read(3000)
        soup = BeautifulSoup(text)
        key = soup.title.string

        if(u'分类信息' in key):
            flag = 0
        else:
            flag = 1
    return flag


print u'请确保所审核文档与此程序在同一目录！'
filename = raw_input('请输入文件名：')

f = open(filename,&#