数据挖掘
文章平均质量分 84
DASEason
https://github.com/qq547276542
展开
-
Louvain 社团发现算法学习(我的java实现+数据用例)
为了大家方便,直接把数据放在github了:https://github.com/qq547276542/Louvain算法介绍:Louvain 算法是基于模块度的社区发现算法,该算法在效率和效果上都表现较好,并且能够发现层次性的社区结构,其优化目标是最大化整个社区网络的模块度。社区网络的模块度(Modularity)是评估一个社区网络划分好坏的度量方法,它的含义是社区内节点的连边数与随机情况下的...原创 2017-04-14 20:22:06 · 30305 阅读 · 50 评论 -
解决fasttext内存不足无法读取模型的问题
fasttext是个好东西,是由facebook在2016年推出的一个训练词向量的模型。相比于之前Google的word2vec,fasttext可以解决out of vocabulary的问题。更赞的是,facebook提供了200多种语言的预训练模型和词向量。 然而,在安装完fasttext后,当我读取了3GB的中文模型时,却出了下面的问题:Traceback (most recent cal原创 2017-12-15 21:56:13 · 6169 阅读 · 1 评论 -
随机森林算法学习(RandomForest)
随机森林算法学习最近在做kaggle的时候,发现随机森林这个算法在分类问题上效果十分的好,大多数情况下效果远要比svm,log回归,knn等算法效果好。因此想琢磨琢磨这个算法的原理。要学随机森林,首先先简单介绍一下集成学习方法和决策树算法。下文仅对该两种方法做简单介绍(具体学习推荐看统计学习方法的第5章和第8章)。Bagging和Boosting的概念与区别该部分主要学习自:http://www.c原创 2017-10-21 16:24:37 · 161401 阅读 · 12 评论 -
知识图谱构建技术综述
知识图谱的定义与架构知识图谱的定义知识图谱是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系。其基本组成单位是“实体-关系-实体”三元组。通过知识图谱,可以实现Web从网页链接向概念链接的转变。知识图谱的架构从逻辑上可以划分为2个层次:数据层和模式层。在知识图谱的数据层,知识以事实(fact)为单位存储在图数据库。图数据中有“实体-关系-实体”或者“实体-属性-属性值”两种三元组,原创 2017-10-29 17:31:44 · 20951 阅读 · 2 评论 -
机器学习中常见概念的区别与联系
欠拟合与过拟合L1正则化和L2正则化分类和回归偏差和方差监督学习和无监督学习分类和聚类判别模型和生成模型归一化与标准化协方差和相关系数原创 2017-09-07 16:33:21 · 4295 阅读 · 0 评论 -
朴素贝叶斯分类文本 python实现
朴素贝叶斯(naive bayes)模型主要用于文本分类,比如要将邮件分类为正常邮件和带侮辱性词汇邮件对于一封邮件来说其特征可以表示为该邮件中单词出现的情况。比如我们有一个5000个词的词典表,那么邮件的特征可表示成一个特征向量,特征向量的维数等于词典表的单词个数,特征向量每一维的取值空间为0或1(即这个单词是否出现)对于p(x|y),在某一组样本中:p(x1x2...x5000|原创 2017-04-27 22:10:05 · 9150 阅读 · 5 评论 -
NLP中基本概念入门
词向量(Word Embedding) 词向量主要用于将自然语言中的词符号数学化,这样才能作为机器学习问题的输入。 数学化表示词的方式很多,最简单的有独热编码,即“足球”=[0,0,1,0,0,0,0,…],“篮球”=[0,0,0,0,0,1,0,…],向量的长度为总词数。显然,独热编码有以下缺点:1.可能导致维数过大,对深度学习来说复杂度过高。2.两个词的相似程度无法表示。 词向量与独热编码原创 2017-10-18 16:29:44 · 6376 阅读 · 0 评论 -
与信息熵相关的概念梳理(条件熵/互信息/相对熵/交叉熵)
香农信息量信息量表示不确定性的大小。 信息量的单位是比特(bit)。香农信息量=log1p=−logp(以2为底)香农信息量=\log\frac{1}{p}=-\log p\quad(以2为底)上式中,p越小,则不确定性越大,包含的信息量就越多。比如32支球队,在无任何先验信息的前提下,用二分法猜冠军队伍,最多猜5次,那么信息量就是log132=5\log \frac{1}{32}=5。信息熵(En原创 2019-11-29 20:29:07 · 5709 阅读 · 1 评论 -
共轭梯度法的推导与完整算法
共轭梯度法学习自知乎:https://www.zhihu.com/question/27157047和非线性规划课程简介在数值线性代数中,共轭梯度法是一种求解对称正定线性方程组Ax=b的迭代方法。事实上,求解Ax=b等价于求解: min||Ax−b||22min||Ax-b||_2^2 ,将其展开后可以得到:minxTATAx−bTAx+bTbmin \quad x^TA^TAx-b^TAx+b^T原创 2019-11-29 20:28:07 · 41861 阅读 · 10 评论 -
从牛顿法到L-BFGS的算法演变
前言(本文主要学习自该博主的文章:http://blog.csdn.net/itplus,以下是本人的笔记,主要记录了结论部分,省略了推导的部分。对具体推导过程有兴趣的同学请访问原博主的博客~) 拟牛顿法是求解非线性优化问题最有效的方法之一,其中DFP方法,BFGS方法以及L-BFGS方法都是重要的拟牛顿法。我们现在考虑如下无约束的极小化问题: >minxf(x),其中x=(x1,x2原创 2017-09-10 09:12:22 · 4281 阅读 · 0 评论 -
灰色预测模型GM(1,1) 与例题分析
灰色预测模型灰色预测的概念(1)灰色系统、白色系统和黑色系统白色系统是指一个系统的内部特征是完全已知的,既系统信息是完全充分的。黑色系统是一个系统的内部信息对外界来说是一无所知的,只能通过它与外界的联系来加以观测研究。灰色系统介于白色和黑色之间,灰色系统内的一部分信息是已知的,另一部分信息是未知的,系统内各因素间有不确定的关系。(2)灰色预测法灰色预测法是一种预测灰色系统的预测方法。灰色原创 2017-09-06 13:39:28 · 336799 阅读 · 49 评论 -
模拟退火算法(c++实现)
模拟退火算法算法简介 模拟退火算法得益于材料的统计力学的研究成果。统计力学表明材料中粒子的不同结构对应于粒子的不同能量水平。在高温条件下,粒子的能量较高,可以自由运动和重新排列。在低温条件下,粒子能量较低。如果从高温开始,非常缓慢地降温(这个过程被称为退火),粒子就可以在每个温度下达到热平衡。当系统完全被冷却时,最终形成处于低能状态的晶体。 假定我们要解决的问题是一个寻找最小值的优化问题。将物理原创 2017-09-02 13:46:47 · 18591 阅读 · 4 评论 -
动态规划解TSP问题(状态压缩dp)
动态规划解TSP问题(状态压缩dp)TSP问题简述 给定图上若干个点,以及他们之间的距离,求一条距离和最小的回路,使得该回路正好经过每个点一次。TSP也叫旅行商问题、货郎担问题。。。状态转移方程 用 V’ 表示一个点的集合,假设从顶点 s 出发, d ( i , V’ ) 表示当前到达顶点 i,经过 V’ 集合中所有顶点一次的最小花费。1.当 V’ 为仅包含起点的集合,也就是:d ( s , {原创 2017-09-04 15:38:03 · 12748 阅读 · 3 评论 -
Kaggle入门模板:以手写识别Digit Recognizer为例
首先本文参考了点击打开链接 这篇博客,然后可能时间有点久远,Kaggle的这道题给的数据文档和之前的不一样了,以及还有一些注意点这篇文章里没有突出。因此这里重新做个总结,希望大家能早点入个门。这里我使用的sklearn中的支持向量机来解决手写识别问题。这里的svm是可以解决多分类问题的。核函数使用的是高斯核(rbf),松弛变量c选择的是5.kaggle这道题一共提供了3个文件:train.原创 2017-07-05 10:24:03 · 3430 阅读 · 0 评论 -
农业领域的知识图谱构建(Agriculture_KnowledgeGraph)
Agriculture_KnowledgeGraphdemo:http://ecnukg.vicp.io github:https://github.com/qq547276542/Agriculture_KnowledgeGraph 欢迎star&fork~命名实体识别进入主页面,输入文本,即可看到以下命名实体和分词的结果(确保django和neo4j都处于开启状态)...原创 2019-11-29 20:32:48 · 23123 阅读 · 13 评论