- 博客(8)
- 收藏
- 关注
原创 GMM与EM算法原理(一)
简介前两天看到知乎上的“最佳聚类实践”介绍了GMM(高斯混合算法)。相比之前学习的K-Means有些优势。比如有P(x | θ),类比K-means有概率,更rubust.结合GMM,需要使用EM算法,极大似然估计来估测参数比如Σ(样本标准差 or 马氏距离),σ,平均数等1 极大似然估计和EM算法极大似然两种常见的估算参数算法:“最小二乘法” 与 “极大似然估计”主要提下极大似...
2019-11-05 14:25:29 577
原创 Python算法——有序队列
有序队列(10分)题目内容:一开始给出了一个由小写字母组成的字符串 S。我们规定每次移动中,选择最左侧的字母,将其从原位置移除,并加到字符串的末尾。这样的移动可以执行任意多次返回我们移动之后可以拥有的最小字符串(注:在Python3中,字符串的大小可用不等号比较)。输入格式:S。S为仅含有小写字母的字符串,长度不超过100000。输出格式:一个与S等长的字符串。输入样例:“cba...
2019-10-27 22:35:15 1170
原创 python算法实现——打印任务模拟器
概要最近在学Python版的数算网课,(打印机模拟器)是其中第四章队列数据的例题(打印任务模拟),在博客上分享下个人的逻辑思路。来源数据结构与算法Python版第四章例题问题概述问题描述的比较清晰,即打印店人很多,为减少现实资源浪费,耽误学生时间,运用算法来模拟两种 打印模式的结果,辅助决策。个人认为有意思的点在于:1.很明显是运用 队列 的问题,但是到底往队列里放什么?2....
2019-10-20 17:16:06 1001 1
原创 网格搜索与缺失值处理(一)
概述是关于PIMA(糖尿病预测数据)的学习笔记。数据来源Feature Engineering Made Easy —Chapter 3基本概念网格搜索法网格搜索法,是指定参数值的一种穷举搜索方法,通过将估计函数的参数通过交叉验证的方法进行优化来得到最优的学习算法。交叉验证就是 split test,将train再切分的技术,不做过多介绍。本文将把网格搜索法用于KNN的参数求取。...
2019-10-13 17:18:01 448
原创 NLP - 处理影评模型的笔记
开头叨叨这周跑了两个model,一个很成功,一个很失败(大概)。让我体会到nlp 自然语言处理是个多么好玩的方向(top1%的fit rate不过80%,我76.06%还有点小骄傲 ?)本文只简略展示代码骨干内容,nb文件不会公布影评模型Sentiment Analysis on Movie Reviews已有的数据是 150000+条的影评数据(tsv格式,类似csv,分隔符不同)训练...
2019-09-27 16:03:26 440
原创 Pandas和Scikit.Learn、scipy库的数据挖掘应用(前传)
title: 关于matplotlib和numpy+pandas的初级运用(二)categories:数据挖掘tags:Pythontop: 2代码&数据源来自《Python 数据分析与应用》和《Python数据分析与挖掘实战》任务概要通过学习numpy和pandas的初级用法,将npy/npz ,xsl的数据以series和Dataframe的形式导入,经过基本的Dat...
2019-09-15 13:47:05 190
原创 SQL学习笔记(一)
SQL学习笔记(一)需求代码&数据源任务概要语法SELECT & WHEREORDER BY聚类函数例题例1Select the code which would show the year when neither a Physics or Chemistry award was given例二总结需求在学习数据的时候,不可能所有文件都是直接给你的csv,为了接入体系,sql的数据库...
2019-09-15 12:34:46 448
原创 关于matplotlib和numpy+pandas的初级运用(一)
我的第一篇Blog_关于matplotlib和numpy+pandas的初级运用(一)代码&数据源概要实战2000-2017年GDP基础分析原有数据数据清理任务实现合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式...
2019-08-07 16:10:12 526
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人