主要内容
利用库想去做分类时候,是怎样的一个现象。尤其关注分类的时间和效率怎么样 ,以及精度与logistic回归,SVM,岭回归可做一个比较。
即每个词出现的位置,即标注为1,未出现的词,即标注为0.
公式有时会有点差别,但是这是我们在自然语言中提取特征的办法,来算每一个词的权重是多少,就用TF-IDF来做。通过已有词典,或者从样本中得到长度为V的词典,维度仍然是V维的,但是元素不再是整型或者0-1向量了,而是浮点型了,将这个向量作为初始向量再给后面模型。可把这个IDF向量喂给贝叶斯,或主题模型LDA。
小插曲形式化理解马尔科夫模型
一般做马尔科夫模型时,认为状态转移矩阵近似是稳定不变的。
一点马尔科夫模型知识
文本数据的处理流程
即拿到文本数据,我们怎么样生成一些他的特征,然后喂给某一个模型。
TF-IDF模型
Word2vec的使用
词嵌入:
当然有V个词的空间其实是很稀疏的,但是当两个词很接近时,映射的V空间的向量有不同时,即没有太多关联,如people与person即没有相似性了,我们可将V维空间不要做的那么稀疏,将V维度降下来,如100维度空间;即都映射成100维空间的一个向量了;即就做一个100或200维的词嵌入。
我们希望两个相似词映射到100维空间后这两个词对应的向量也比较接近,可以使用这个词相邻的词。
具体做法
可将A词先初始化为一个长度为100初始的向量,将其他词也随机初始化为初始向量,调节A词与其周围词之间的权值,使得得到合适权值的情况之下,能够使得我们将当前A词对应长度为100的向量带入进去,能够使得预测值是近似相等的,最后不要权值,只是关心A这个词映射为100维空间的向量是什么。因此我们可以使用当前词去预测相邻的词,也有可能利用周围词预测某一个词。
实践
实例1
鸢尾花数据
使用高斯朴素贝叶斯
实例2
每50ms做一帧图像进行刷新
实例3
即一个模型的训练时间。
实例4
将词做一些加加减减,如下:
实例5
要对样本数据做一些处理。