python轻量化爬虫
请勿拿爬虫去非法获取数据,本项目仅用于学习和交流,仅演示不同目前主流的爬虫爬取数据方式
将会在这里不断更新,简单易懂,小白也能看懂学会
给项目爬虫严格按照以下格式编写:
完整项目地址:
https://github.com/linxinloningg/lightweight_spider.git
class Spider:
def __init__(self, url):
self.url = url
self.headers = {"User-Agent": "Mozilla/5.0 (Windows NT 6.3; Win64; x64; rv:91.0) Gecko/20100101 Firefox/91.0"}
def get_urls(self):
...
def parse_url(self):
...
@staticmethod
def get_content(html):
...
@staticmethod
def save_content(content):
...
def run(self):
html = self.parse_url()
content = self.get_content(html)
self.save_content(content)