wsgi简介，flask和scrapy的简单使用

最新推荐文章于 2024-01-14 20:03:11 发布

sf131097

最新推荐文章于 2024-01-14 20:03:11 发布

阅读量2.1k

点赞数

分类专栏：小练手

本文链接：https://blog.csdn.net/sf131097/article/details/79463912

版权

小练手专栏收录该内容

19 篇文章 0 订阅

订阅专栏

WSGI接口定义非常简单，它只要求Web开发者实现一个函数，就可以响应HTTP请求。

def application(environ, start_response):
    start_response('200 OK', [('Content-Type', 'text/html')])
    return [b'<h1>Hello, web!</h1>']

environ：HTTP请求信息

start_response:start_response是外部传入的，调用时候两个参数，一个返回状态码，一个头部信息

返回：一个http的body信息

flask简单使用：

这个form action='',method='',决定提交的时候的post

from flask import Flask
from flask import request

app = Flask(__name__)

@app.route('/', methods=['GET', 'POST'])
def home():
    return '<h1>Home</h1>'

@app.route('/signin', methods=['GET'])
def signin_form():
    return '''<form action="/signin" method="post">
              <p><input name="username"></p>
              <p><input name="password" type="password"></p>
              <p><button type="submit">Sign In</button></p>
              </form>'''

@app.route('/signin', methods=['POST'])
def signin():
    # 需要从request对象读取表单内容：
    if request.form['username']=='admin' and request.form['password']=='password':
        return '<h3>Hello, admin!</h3>'
    return '<h3>Bad username or password.</h3>'

if __name__ == '__main__':
    app.run()

scrapy用法简介：

scrapy startproject scrapyspider

scrapy.cfg: 项目的配置文件。

scrapyspider/items.py: 项目中的item结构，供下面parse解析返回，和piplines使用。

scrapyspider/middlewares: 爬取，解析和保存的中间件。

scrapyspider/pipelines.py: 实现process_item（self，item， spider），保存爬取结果。

scrapyspider/settings.py: 项目的设置文件。

scrapyspider/spiders/: 放置spider代码的目录。

spider代码的目录，实现name， start_urls（or 函数 start_requests），parse（self，response）。

start_requests和parse都用yield 生成器式返回一个个结果。

from scrapy.spiders import Spider
class BlogSpider(Spider):
    name = 'woodenrobot'
    start_urls = ['http://woodenrobot.me']

    def parse(self, response):
        titles = response.xpath('//a[@class="post-title-link"]/text()').extract()
        for title in titles:
            print title.strip()

切换到scrapyspider目录，运行这个name的爬虫。