在在线学习时,我们不会一次性得到所有要训练的数据。数据会随时间而更新。对于这种情况,我们都是先训练已有数据,然后再训练不断得到的数据。类似的做法是,构建一个迭代器,用于每次训练一部分数据,直到所有数据都训练完。(真正的在线学习算法的数据是不会训练完的,会一直更新)
由于每次训练的数据不一样,会影响到分类器的准确度,也就是说,可能会影响到分类器的性能好坏。
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
import pandas as pd
from sklearn import cluster, datasets
from sklearn import metrics
import random
np.random.seed(0)
#传输进来的data,target是np.array