2019年02月_修炼打怪的小乌龟

07月 04月 03月 02月

原创 sklearn.feature_extraction.text 中的 TfidfVectorizer 实现过程

对于NLP，已经学习一年了，可是一直有一个问题困扰着我，终于忍无可忍，决定将问题解决掉。首先，介绍一下我的问题：对于TFIDF算法，当利用训练集训练完成分类器，利用分类器进行训练时，如果测试集中只有一个文档，TFIDF数据是如何生成的？这个问题可能对于很多人来说，很简单。但是对于我来说着实很纠结。1. TFIDF算法基础知识TF-IDF（Term Frequency-Inver...

2019-02-24 21:07:57 8396 2

opencv SVM图像分类工程文件

这是opencv svm图像分类的整个工程代码，在VS2010下打开即可。整个工程文件以及我的所有训练的图片存放在这里，需要的可以下载，自己在找训练图片写代码花了很多时间，下载完后自行解压，训练图片和测试图片可以从这免费下载http://download.csdn.net/detail/always2015/8944959，project data文件夹直接放在D盘就行，里面存放训练的图片和待测试图片，以及训练过程中生成的中间文件，现在这个下载object_classfication_end则是工程文件，我用的是vs2010打开即可，下面工程里有几个要注意的地方： 1、在这个模块中使用到了c++的boost库，但是在这里有一个版本的限制。这个模块的代码只能在boost版本1.46以上使用，这个版本以下的就不能用了，直接运行就会出错，这是最需要注意的。因为在1.46版本以上中对比CsSVM这个类一些成员函数做了一些私有化的修改，所以在使用该类初始化对象时候需要注意。 2、我的模块所使用到的函数和产生的中间结果都是在一个categorizer类中声明的，由于不同的执行阶段中间结果有很多个，例如：训练图片聚类后所得到单词表矩阵，svm分类器的训练的结果等，中间结果的产生是相当耗时的，所以在刚开始就考虑到第一次运行时候把他以文件XML的格式保存下来，下次使用到的时候在读取。将一个矩阵存入文本的时候可以直接用输出流的方式将一个矩阵存入，但是读取时候如果用输入流直接一个矩阵变量的形式读取，那就肯定报错，因为输入流不支持直接对矩阵的操作，所以这时候只能对矩阵的元素一个一个进行读取了。 3、在测试的时候，如果输入的图片太小，或者全为黑色，当经过特征提取和单词构造完成使用svm进行分类时候会出现错误。经过调试代码，发现上述图片在生成该图片的单词的时候所得到的单词矩阵会是一个空矩阵，即该矩阵的行列数都为0，所以在使用svm分类器时候就出错。所以在使用每个输入图片的单词矩阵的时候先做一个判断，如果该矩阵行列数都为0，那么该图片直接跳过。

2017-07-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

爱吃鱼的猫

原创 sklearn.feature_extraction.text 中的 TfidfVectorizer 实现过程

opencv SVM图像分类工程文件

Neural Networks: Tricks of the Trade

TensorFlow MNIST数据集下载脚本input_data.py

基于android平台的拍照以及上传到服务器，其中包括服务器部分的设计

实现Android本机视频录制播放边录边放

word调用操作

基于字符识别的LPR系统

ocr识别图像

linux流媒体播放

二维码的识别程序

条形码识别源代码

二维码解码器

二维码解码

二维码生成程序

ICA进行语音的实时采集，加噪分离

空空如也

原创 sklearn.feature_extraction.text 中的 TfidfVectorizer 实现过程

opencv SVM图像分类工程文件

Neural Networks: Tricks of the Trade

TensorFlow MNIST数据集下载脚本input_data.py

基于android平台的拍照以及上传到服务器，其中包括服务器部分的设计

实现Android本机 视频录制播放 边录边放

word调用操作

基于字符识别的LPR系统

ocr识别图像

linux流媒体播放

二维码的识别程序

条形码识别源代码

二维码解码器

二维码解码

二维码生成程序

ICA进行语音的实时采集，加噪分离

空空如也

实现Android本机视频录制播放边录边放