有时,博主的文章是在csdn直接发布的,没有备份草稿。博客较多时,再逐页查找,进行复制备份很麻烦。所以决定试试爬虫自动爬取备份博客草稿。
网上当然也有一些尝试。不过,自己动手丰衣足食。由于互联网知识更新较快,一些经验仅供参考。由于csdn的博客(包括其它好多类似博客)“宽松”的反爬取措施,所以较容易获取内容。
# -*- coding: utf-8 -*-
#!/usr/bin/env python
"""
@author: WowlNAN
@github: https://github.com/WowlNAN
@blog: https://blog.csdn.net/qq_21264377
"""
"""
获取csdn某博客主页的原创
"""
import time
from selenium import webdriver
from selenium.webdriver.common.by import By
from htmldom import *
import re
driver=webdriver.Chrome()
driver.get('https://blog.csdn.net/qq_21264377')
time.sleep(5)
articleselements=driver