abq43525-CSDN博客

转载 Micro Average vs Macro average之python实现

Micro Average vs Macro averagePrecision and recall are then defined as:Recall in this context is also referred to as the true positive rate orsensitivity, and precision is also refe...

2018-05-07 14:06:00 582

转载 AP算法之python实现

AP算法简介AP聚类一般翻译为近邻传播聚类，07年被提出，其优点有：1. 不需要制定最终聚类族的个数2. 已有的数据点作为最终的聚类中心，而不是新生成一个族中心。3. 模型对数据的初始值不敏感。4. 对初始相似度矩阵数据的对称性没有要求。5. 相比与k-centers聚类方法，其结果的平方差误差较小。它根据N个数据点之间的相似度进行聚类,这些相似度可以是对称的,即...

2018-05-01 10:27:00 1557

转载 TFIDF之python实现

TFIDF介绍现在有一篇长文《中国的蜜蜂养殖》，用计算机提取它的关键词。1、词频：如果某个词很重要，它应该在这篇文章中多次出现。我们进行"词频"（Term Frequency，缩写为TF）统计。2、停用词：结果你肯定猜到了，出现次数最多的词是----"的"、"是"、"在"----这一类最常用的词。它们叫做"停用词"（stop words），表示对找到结果毫无帮助、必须过滤掉的...

2018-04-30 20:07:00 1241

转载 Python之Private, protected and public

Private, protected and public in PythonIn C++ and Java, things are pretty straight-forward. There are 3 magical and easy to remember access modifiers, that will do the job (public, protected an...

2018-04-29 23:13:00 389

转载 Pytorch之Upper Triangular Matrix Vectorization

Upper Triangular Matrix VectorizationDoes PyTorch has the function that would return me the vectorized upper triangular matrix?For example, I have Tensors as [ [1, 2, 3], [4, 5, 6], [7, 8, 9]]...

2018-04-25 22:35:00 591

转载 Pytorch之SAME padding

Implement "same" padding for convolution operationsmimics TensorFlowSAMEpadding (I'm writing it down into the functional interface, so thatnn.Conv2dcan just call intoF.conv2d_same_padding)...

2018-04-25 22:10:00 1494

转载 Python之特性、静态方法、类方法

特性property1：什么是特性propertyproperty是一种特殊的属性，访问它时会执行一段功能（函数）然后返回值。 1 import math 2 class Circle: 3 def __init__(self,radius): #圆的半径radius 4 self.radius=radius 5 6 ...

2018-04-24 14:06:00 153

转载 Python之命名规范

文件名全小写,可使用下划线包应该是简短的、小写的名字。如果下划线可以改善可读性可以加入。如mypackage。模块与包的规范同。如mymodule。类总是使用首字母大写单词串。如MyClass。内部类可以使用额外的前导下划线。函数&方法函数名应该为小写，可以用下划线风格单词以增加可读性。如：myfunction，my_example_function。*注意...

2018-04-24 13:32:00 153

转载决策树之python实现C4.5算法

原理　　C4.5算法是在ID3算法上的一种改进，它与ID3算法最大的区别就是特征选择上有所不同，一个是基于信息增益比，一个是基于信息增益。　　之所以这样做是因为信息增益倾向于选择取值比较多的特征(特征越多，条件熵(特征划分后的类别变量的熵)越小，信息增益就越大)；因此在信息增益下面加一个分母，该分母是当前所选特征的熵，注意：这里而不是类别变量的熵了。　　这样就...

2018-04-07 21:32:00 771

转载决策树之python实现ID3算法（例子）

引言决策树从本质上是从训练数据集上训练处一组分类规则，完全依据训练数据，所得规则容易发生过拟合，这也是决策树的缺点，不过可以通过决策树的剪枝，来提高决策树的泛化能力。由此，决策树的创建可包括三部分：特征选择、决策树的生成以及决策树的剪枝；决策树的应用包括：分类、回归以及特征选择。决策树最经典的算法包括：ID3、C4.5以及CART算法，ID3与C4.5算法相似，C4.5在...

2018-04-06 21:51:00 402

转载决策树之python实现ID3算法

下表为是否适合打垒球的决策表，预测E= {天气=晴，温度=适中，湿度=正常，风速=弱}的场合，是否合适中打垒球。天气温度湿度风速活动晴炎热高弱取消晴炎热高强取消...

2018-04-06 21:27:00 529

转载决策树之算法原理1

决策树ID3算法的信息论基础机器学习算法其实很古老，作为一个码农经常会不停的敲if, else if, else,其实就已经在用到决策树的思想了。只是你有没有想过，有这么多条件，用哪个条件特征先做if，哪个条件特征后做if比较优呢？怎么准确的定量选择这个标准就是决策树机器学习算法的关键了。1970年代，一个叫昆兰的大牛找到了用信息论中的熵来度量决策树的决策选择过程，方法一出，...

2018-04-06 11:50:00 276

转载决策树之概念及思想

分类树分类决策树的核心思想就是在一个数据集中找到一个最优特征，然后从这个特征的选值中找一个最优候选值(这段话稍后解释)，根据这个最优候选值将数据集分为两个子数据集，然后递归上述操作，直到满足指定条件为止。1.最优特征怎么找？这个问题其实就是决策树的一个核心问题了。我们常用的方法是更具信息增益或者信息增益率来寻找最优特征，信息增益这东西怎么理解呢！搞清这个概念我们首先需要明...

2018-04-05 13:47:00 417

转载 K-means与K-means++

K-means与K-means++：原始K-means算法最开始随机选取数据集中K个点作为聚类中心，而K-means++按照如下的思想选取K个聚类中心：假设已经选取了n个初始聚类中心(0<n<K)，则在选取第n+1个聚类中心时：距离当前n个聚类中心越远的点会有更高的概率被选为第n+1个聚类中心。在选取第一个聚类中心(n=1)时同样通过随机的方法。可...

2018-04-02 20:12:00 472

转载 K-Means算法

介绍K均值算法：优点：易于实现缺点：可能收敛于局部最小值，在大规模数据收敛慢算法思想较为简单如下所示：选择K个点作为初始质心repeat将每个点指派到最近的质心形成K个簇重新计算每个簇的质心until簇不发生变化或达到最大迭代次数这里的重新计算每个簇的质心，如何计算的是根据目标函数得...

2018-04-02 18:05:00 231

转载聚类分析

什么是聚类分析聚类分析是在数据中发现数据对象之间的关系，将数据进行分组，组内的相似性越大，组间的差别越大，则聚类效果越好。不同的簇类型聚类旨在发现有用的对象簇，在现实中我们用到很多的簇的类型，使用不同的簇类型划分数据的结果是不同的，如下的几种簇类型。明显分离的可以看到(a)中不同组中任意两点之间的距离都大于组内任意两点之间的距离，明显分离的簇不一定是球形的，...

2018-04-02 17:40:00 907

转载 LDA之主题模型原理解析与python实现

LDA(Latent dirichlet allocation)是有Blei于2003年提出的三层贝叶斯主题模型，通过无监督的学习方法发现文本中隐含的主题信息，目的是要以无指导学习的方法从文本中发现隐含的语义维度-即“Topic”或者“Concept”。隐性语义分析的实质是要利用文本中词项(term)的共现特征来发现文本的Topic结构，这种方法不需要任何关于文本的背景知识。...

2018-04-01 19:45:00 742

转载 LDA之主题模型代码实现流程

LDA代码流程:(1) 先对文档切词,然后对每个词语赋ID编号0~(n-1),计算共有n个词,m个文档(2) 参数,变量设置:K 主题数beta βalpha αiter_times 迭代次数top_words_num 每个主题特征词个数p,概率向量,double类型,存储采样的临时变量,长度为主题数nw,词word在主题上的分布数,长度为[n][...

2018-04-01 17:54:00 501

abq43525的博客