设计背景及说明
依旧使用简单的函数和库,实现自动爬取89免费代理IP并将IP数据发布到本博客
目标如图:
使用库
requests、bs4(爬虫)
html2text(html转markdown)
pytypecho(发布typecho文章)
datetime(获取当天时间作为标题)
代码流程
导入库
import requests
from bs4 import BeautifulSoup as BS
from pytypecho import Typecho,Post
import html2text as ht
import datetime
爬取数据
# 设置爬虫头,避免爬太多被禁止
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'}
# 定义爬虫函数,爬虫代理IP页面的表格块
def getip():
for i in range(1,3):
res = requests.get('https://www.89ip.cn/index_'+str(i)+'.html',headers