第一个小作品，不喜勿喷，新手

最新推荐文章于 2024-07-12 14:00:11 发布

dzy0816

最新推荐文章于 2024-07-12 14:00:11 发布

阅读量767

点赞数 1

文章标签： python

本文链接：https://blog.csdn.net/dzy0816/article/details/104750796

版权

一个用python的乱七八糟模块搞出来的小作品

你是否曾对于观后感的写作而苦恼
你又是否曾想抄却不敢抄（其实是因为没看过）

你总是在想：
一篇文章全部复制——太假了
一片文章把它的段落打断——好像也差不多
多找几篇来混着抄——好累呀，段落中的句子还是一样的
多找几篇来抄，段落中的句子打乱，再乱序——好的，人没了（早死早超生）

而就是现在，我来了
是的，你没有用过的船新版本，大学生（中学生也可。。。）狗屁不通观后感生成器，那么此时大家就要疑问了，github上不是有一个大学生狗屁不通文章生成器吗，你这不是抄袭吗？那么我就在此声明，本人写的是一个小作品，与那个大作更定比不了（他那个好像有什么吊炸天的算法），我这个其实本质上就是一个爬虫，只不过优化了而已。。。（好低端），和大佬的作品杠都不搭，废话不多说，直接上代码！！！

#crowldouban.py
# -*- coding: utf-8 -*-
import re
import requests
import time
from bs4 import BeautifulSoup
import bs4
import os
import random
def gettext(url):
    try:
        kv={'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'}
        r=requests.get(url,timeout=20,headers=kv)
        r.raise_for_status()
        r.encoding=r.apparent_encoding
        r.encoding = "utf-8"
        return r.text
    except:
        return ""

#短评链接&nbsp;
def getcri(text):
    pat="https://movie.douban.com/review\/[0-9]*?\/\""
    result=re.compile(pat).findall(text)
    return result

#作品简介
def getbf(text):
    pat="\<p\>导演.*?分"
    result=re.compile(pat).findall(text)
    return result

def main():
    print("本作品作者董正宇QAQ")
    print("请输入你想要获取的观后感，输入格式：该影视的豆瓣链接")
    url=input()
    key={'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'}
    txt=gettext(url)
    listf=getcri(txt)#各链接
    s=getbf(txt)#简介
    soup=BeautifulSoup(txt,"html.parser")
    title=soup.title.text.replace("\n","")
    title=title.replace(" ","")
    print(title)
    if not os.path.exists(title):
        os.mkdir(title)

    for i in listf:
        after=i[:-2]
        duanpin=gettext(after)
        pat="data-original=\"[\d]\"\>(.*?)\<\/div\>"
        result=re.findall(pat,duanpin,re.S)
        name="狗屁不通文章"
        content=re.sub("(\<br\>)+","\n",result[0])
        content_two=re.sub("(<p>)|(<\/p>)|(&nbsp;)+|-+","",content)
        each_par=content_two.split("\n")
        pargraph=random.sample(range(0,len(each_par)),len(each_par)-3)
        for i in pargraph:
            random_par=random.randint(0,5)
            with open(title+"/"+name+".txt","a",encoding="utf-8") as f:
                f.write(each_par[i])
                if random_par == 1:
                    f.write("\n")
    print("狗屁不通文章生成，别打我！！！")
main()