ML
XuMing&
有理想,有激情,态度改变人生
github:[https://github.com/shibing624](https://github.com/shibing624)
展开
-
Bootstrap,Bagging,Boosting
Bootstrap(自助法)引入Bootstrap,即“自助法”,是用小样本来估计大样本的统计方法。核心思想子样本之于样本,可以类比样本之于总体思想解析举个栗子 你要统计你们小区里男女比例,可是你全部知道整个小区的人分别是男还是女很麻烦对吧。 于是你搬了个板凳坐在小区门口,花了十五分钟去数,准备了200张小纸条,有一个男的走过去,你就拿出一个小纸条写上“M”,有一个女的过去你就写一个“原创 2016-12-21 22:45:33 · 1202 阅读 · 0 评论 -
距离及相似度度量方法
前言关于距离度量的方法的专题其实已经想做好久了,正好趁这个机会总结出来。这里讨论的距离度量应该是向量空间内的度量,两个点(即两个向量)之间的距离或相似性的度量。每种度量包括描述、定义和公式、优缺点、应用等部分。本文涵盖一下几个度量方法:欧氏距离; 曼哈顿距离; 切比雪夫距离; 闵可夫斯基距离; 标准化欧氏距离; 马氏距离; 巴氏距离 汉明距离; 夹角余弦; 相关系数与相关距离。原创 2016-12-22 17:51:48 · 16837 阅读 · 1 评论 -
Weka应用总结
一. 引入本文是我学习《数据挖掘与机器学习–WEKA应用技术与实践》的笔记。该书电子版的链接是:http://download.csdn.net/detail/fhb292262794/8759397全书简单说明了机器学习的分类、聚类、关联的算法原理及实践,在高级应用中说明了贝叶斯网络、神经网络的原理及简单实例应用,还给出了Java Api调用WEKA接口的方法。总体而言该书比较详实,有理论有实践,原创 2017-03-22 14:28:35 · 8993 阅读 · 0 评论 -
Weka高级应用--Java API
1.引入本文是我学习《数据挖掘与机器学习–WEKA应用技术与实践》的笔记。该书电子版的链接是:http://download.csdn.net/detail/fhb292262794/8759397 前一篇博文总结了用Weka演示机器学习的算法处理,主要是通过Weka3.8的客户端软件操作。 本文通过Java API调用来处理,这样就可以在编程中应用Weka的机器学习算法处理数据。本书的实例是用原创 2017-03-22 15:42:34 · 8265 阅读 · 1 评论 -
大数据精准营销中搜狗用户画像挖掘比赛——1st算法分享
作者:李恒超,李裕礞,王安然,钱凌飞,任璐,林鸿飞 ——大大黑楼战队 目录 1. 数据预处理 1.1. 停用词处理 1.2. 分词 2. 特征表示 2.1. Bag of Words 2.2. Word Embedding 2.3. Topical Word Embedding 2.4. Doc2Vec...转载 2018-06-27 17:23:58 · 7558 阅读 · 0 评论 -
用于语法纠错的深度上下文模型
用于语法纠错的深度上下文模型徐明 编译论文地址:https://www.isca-speech.org/archive/SLaTE_2017/pdfs/SLaTE_2017_paper_5.pdf相关开源项目:https://github.com/shibing624/pycorrector摘要本文提出了一个基于递归的深层上下文模型。用于语法错误校正的神经网络(RNN)。对于特定的错...翻译 2018-10-24 14:12:21 · 9309 阅读 · 8 评论