Python爬虫--自动获取参考链接的标题--转为markdown格式

最新推荐文章于 2024-04-29 07:59:17 发布

AydenMeng

最新推荐文章于 2024-04-29 07:59:17 发布

阅读量611

点赞数

分类专栏： markdown 文章标签： python 爬虫 markdown 网页标题

本文链接：https://blog.csdn.net/Mxdon_on/article/details/113154422

版权

markdown 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

自动获取参考链接的标题

众所周知，我也是一个~~托更的~~自媒体的创作者

写的文章经常需要提及一些参考文章，大多数来源于互联网，如下图：

上上次文章的参考文献

看着感觉还行吧，但是写的时候真的是有点头大，一遍一遍的复制链接，再一遍一遍的对应链接去复制标题，十分的不银杏～

于是懒人总算想起来写一个爬虫脚本直接获取不就完事了吗？

说干就干：

啊完成了：

import requests
import time
import random
import urllib3
from bs4 import BeautifulSoup

urllib3.disable_warnings(urllib3.exceptions.InsecureRequestWarning) # 防止ssl请求报错

heads = {'User-Agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36'}

src = open("link2md.txt","r")
des = open("res.txt","w")

lines = src.readlines()

for line in lines:
    
    url = line.strip("\n").replace(" ","") # 把文件里的链接去除一些不必要的符号
    try:	
        res = requests.get(url,timeout=30,headers=heads,verify=False)
        res.encoding = 'UTF-8' # 解码
        content = res.text
        soup = BeautifulSoup(content,'html.parser') # 获取网页

        target = soup.find('title') # 获取标题
        result = "["+target.text+"]("+url+")\n"

        print("[\033[32m%s\033[0m](\033[34m%s\033[0m)" % (target.text,url) ) # 彩色打印
        des.write(result)
        #time.sleep(random.random()*3)
        #time.sleep(0.1)   # 如果爬的太快，可以定义一下爬取时间
    except:
        print("[\033[31m############   Something Error  #############\033[0m](\033[31m%s\033[0m)"% (url)) # 彩色打印
        continue

src.close()
des.close()