1.调度平台:
谷歌的kubeflow
Databricks的Mlflow
Airflow
2.bdp可以定时也可以接口调用
3.多个模型并行训练可以采用接口传参获取特定数据训练特定模型,然后允许任务并行即可等价于k8s或者容器内搭建调度平台然后通过节点调用bdp接囗,因为bdp本身就是调度平台
4.训练与预测最大区别:训练存储模型文件不一定给预测结果,如果有预测结果是离线存在hive表预测是使用已知模型文件返回预测结果,可以存储hive表单更多是实时返回预测结果
5.预测分为离线数据预测和实时数据预测:离线数据预测可以离线预测结果提前存hive表离线数据预测可以提前转成hbase实现实时返回预测结果实时数据即为用真实的实时数据流进行预测
重点要实现实时数据和实时计算
# -*- coding:utf-8 -*-
from kafka import KafkaProducer, KafkaConsumer
from kafka. errors import kafka_errors
import traceback
import json
import time
def consumer_demo1()
consumer • = KafkaConsumer
'INC VSAP CLOS_LLRM' ,
bootstrap_servers= ' 100. 80.128.199 : 992 '
# , api_version=(0,9)
#, ssL check hostname=FaLse
)
# consumer = KafkaConsumer(group_id = ''111111', bootstrap_servers = [' 100. 80.128.199 : 992 ' ])
# consumer. subscribe(topics=( 'INC_VSAP_CLOS_LLRM',)) #消息的主题可以指定多个
print(consumer. topics())
index = 0
while True:
msg = consumer . poll(timeout=5, max_records=5) #从Kafka获取消息
print (msg)
time. sleep(2)
index +=1
print('--------poll index is %s---------' % index)