2019年07月_Dacc123

07月

原创 LeetCode 1 Two Sum

题目class Solution {public: vector<int> twoSum(vector<int>& nums, int target) { vector<int> res; for(int i=0;i<nums.size();i++) {...

2019-07-03 19:48:17 213

原创文本分类学习（十）构造机器学习Libsvm 的C# wrapper（调用c/c++动态链接库）

前言：对于SVM的了解，看前辈写的博客加上读论文对于SVM的皮毛知识总算有点了解，比如线性分类器，和求凸二次规划中用到的高等数学知识。然而SVM最核心的地方应该在于核函数和求关于α函数的极值的方法：SMO算法（当然还有很多别的算法。libsvm使用的是SMO，SMO算法也是最高效和简单的），还有松弛变量。。毕设答辩在即，这两个难点只能拖到后面慢慢去研究了。于是我便是用了LibSvm，也就是台湾...

2019-07-03 19:41:27 432

原创文本分类学习（九）SVM入门之拉格朗日和KKT条件

上一篇说到SVM需要求出一个最小的||w|| 以得到最大的几何间隔。求一个最小的||w|| 我们通常使用来代替||w||,我们去求解 ||w||2 的最小值。然后在这里我们还忽略了一个条件，那就是约束条件，在上一篇的公式（8）中的不等式就是n维空间中数据点的约束条件。只有在满足这个条件下，求解||w||2的最小值才是有意义的。思考一下，若没有约束条件，那么||w||2的最小值就是0，反应在图中...

2019-07-03 19:40:36 261

原创文本分类学习（八）SVM 入门之线性分类器

SVM 和线性分类器是分不开的。因为SVM的核心：高维空间中，在线性可分（如果线性不可分那么就使用核函数转换为更高维从而变的线性可分）的数据集中寻找一个最优的超平面将数据集分隔开来。所以要理解SVM首先要明白的就是线性可分和线性分类器。可以先解释这张图，通过这张图就可以了解线性分类器了。这是一个在二维平面的图。其中实心点和空心点是分别属于两类的，Origin 是原点。先看中间那条直线，中间...

2019-07-03 19:39:42 486

原创文本分类学习（七）支持向量机SVM 的前奏结构风险最小化和VC维度理论

前言:经历过文本的特征提取，使用LibSvm工具包进行了测试，Svm算法的效果还是很好的。于是开始逐一的去了解SVM的原理。SVM 是在建立在结构风险最小化和VC维理论的基础上。所以这篇只介绍关于SVM的理论基础。目录：文本分类学习（一）开篇文本分类学习（二）文本表示文本分类学习（三）特征权重（TF/IDF）和特征提取　　文本分类学习（四）特征选择之卡方检验文本分...

2019-07-03 19:38:33 988

原创文本分类学习（六） AdaBoost和SVM

直接从特征提取，跳到了BoostSVM，是因为自己一直在写程序，分析垃圾文本，和思考文本分类用于识别垃圾文本的短处。自己学习文本分类就是为了识别垃圾文本。中间的博客待自己研究透彻后再补上吧。因为获取垃圾文本的时候，发现垃圾文本不是简单的垃圾文本，它们具有多个特性：种类繁多，难有共同的特征。涵盖各行各业的广告，或者政治敏感内容，或者色情信息。不像对文本分类那样，属于一类的文本，他们的内容都...

2019-07-03 19:37:29 1591

原创文本分类学习（五）机器学习SVM的前奏-特征提取（卡方检验续集）

前言：上一篇比较详细的介绍了卡方检验和卡方分布。这篇我们就实际操刀，找到一些训练集，正所谓纸上得来终觉浅，绝知此事要躬行。然而我在躬行的时候，发现了卡方检验对于文本分类来说应该把公式再变形一般，那样就完美了。目录：文本分类学习（一）开篇文本分类学习（二）文本表示文本分类学习（三）特征权重（TF/IDF）和特征提取　　文本分类学习（四）特征选择之卡方检验文本分类学习（...

2019-07-03 19:36:38 1562 4

原创文本分类学习（四）特征选择之卡方检验

前言：上一篇提到了特征提取，或者叫做降维。在文本分类中，特征提取算法的优劣对于文本分类的结果具有非常大的影响。所以选择效果好的特征提取算法是文本分类前中很重要的步骤。于是这篇就对卡方检验做一个介绍。这是一个效果很好的特征提取方法。之前对卡方检验做过介绍：卡方检验是通过对特征进行打分然后排序，选择排名靠前的特征来表示文本。目录：文本分类学习（一）开篇文本分类学习（二）文本表示文本分类学...

2019-07-03 19:35:52 1618 3

原创文本分类学习（三）特征权重（TF/IDF）和特征提取

上一篇中，主要说的就是词袋模型。回顾一下，在进行文本分类之前，我们需要把待分类文本先用词袋模型进行文本表示。首先是将训练集中的所有单词经过去停用词之后组合成一个词袋，或者叫做字典，实际上一个维度很大的向量。这样每个文本在分词之后，就可以根据我们之前得到的词袋，构造成一个向量，词袋中有多少个词，那这个向量就是多少维度的了。然后就把这些向量交给计算机去计算，而不再需要文本啦。而向量中的数字表示的是每个...

2019-07-03 19:35:05 3139 3

原创文本分类学习（二）文本表示

接着上一篇。在正式的尝试使用文本分类算法分类文本的时候，我们得先准备两件事情: 一，准备适量的训练文本；二，选择合适的方法将这些训练文本进行表示（也就是将文本换一种方式表示）大家都知道文本其实就是很多词组成的文章啊。所以很自然的就想到用一系列词来表示文本。比如我这篇文章，将其分词之后的结果就是：（“接着”,“上”,“一篇”,“在”,“正式”…）这里有很多分词工具可以办到，如果不知道使用何种分...

2019-07-03 19:34:03 1129 1

原创 HttpClient参观记：.net core 2.2 对HttpClient到底做了什么？

.net core 于 10月17日发布了 ASP.NET Core 2.2.0 -preview3，在这个版本中，我看到了一个很让我惊喜的新特性：HTTP Client Performance Improvements ，而且在Linux上性能提升了60% !之前就一直苦于 HttpClient 的糟糕特性，大家耳熟能详的 You are using HttpClient wrong。...

2019-07-03 19:32:08 535