自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 排序算法:快速排序,冒泡排序,插入排序,选择排序

冒泡排序:通过比较的方式,从大到小排序的话,两个比较,把最大的一个放在最后一个,循环迭代def BubbleSort(lst):n=len(lst)if n<=1:return lstfor i in range (0,n):for j in range(0,n-i-1):if lst[j]>lst[j+1]:(lst[j],lst[j+1])=(lst[j+1],ls...

2019-04-14 21:25:05 364

原创 数据挖掘经常用的分类算法

逻辑回归,决策树,svm,k近邻,朴素贝叶斯,基于神经网络的cnn逻辑回归:概念:逻辑回归假设数据服从伯努利分布,通过极大化似然函数的方法,运用梯度下降来求解参数,来达到将数据二分类的目的代价:优点:形式简单,可解释性强。训练速度快,可采用分布式计算,资源也就是内存占用小,方便输出结果调整缺点:准确率低,形式简单很难拟合真实分布;很难处理数据不平衡问题;处理非线性数据麻烦;逻辑回归不能筛选...

2019-04-02 10:41:42 722

原创 相似度计算,关键词提取,标准化方法,sigmoid

几种相似度方法:jaccard适合离散型的,评分不适合,欧几里得距离,需要保证量纲一样余弦相似度:更加注重方向上而非距离上皮尔森(person)相关系数:利用向量间的线性相关性表示用户相似度,https://www.cnblogs.com/bethansy/p/9544293.html关键词提取的方法:tf-idf方法,忽略词序,词义textrank,word2vec+k...

2019-04-01 21:00:51 1766

原创 聚类模型以及分群质量评估

聚类分析:用于客户细分极为重要。三类常见的聚类模型,K-Means,层次聚类,最大期望EM算法,其他的还有密度聚类如何评价聚类结果好坏,一些常用的指标又有哪些聚类分析的目的:让类群内观测的距离最近,同时不同全体之间的距离最大1.聚类分析的距离问题:样本聚类距离:欧式距离,绝对值距离,明式距离,马氏距离。概率分布的距离衡量:k_l代表P,Q概率分布差的期望聚类分析一般要进行标准化,因为聚类...

2019-03-20 08:45:53 2247

原创 感知机以及梯度下降法,最小二乘法,偏差,方差,协方差

.感知机:感知机的模型就是尝试找到一条直线,能够把位于一个平台上所有的男孩和女孩隔离开。放到三位或者更高维空间,感知机的模型就是尝试找到一个超平面,把所有的二元类别隔离开。如果找不到这样的直线,那就说明感知机模型不合适,感知机应用于线性可分。感知机的话他的解不是唯一的,只要能把两类分开即可,在实际应用中感知机的对偶形式比原始问题运算要快的多损失函数的优化目标,就是期望使误分类的所有样本,到超平...

2019-03-18 20:38:48 1203

原创 朴素贝叶斯(NB)

生成模型:是一种条件概率。常见的有隐马尔科夫模型,朴素贝叶斯,判别模型:SVM,逻辑回归,条件概率伯努利分布:只有0-1两种情况,例如抛硬币事件。伯努利试验是只有两种可能结果的单次随机试验二项分布:n重伯努利试验成功次数的离散概率分布,伯努利分布是二项分布在n=1时的特例。二项分布名称的由来,是由于其概率质量函数中使用了二项系数多项分布:二项式分布的推广。如果现在还是做n次试验,只不过每次...

2019-03-18 19:17:02 375

原创 隐马尔科夫模型

2.马尔科夫模型,https://blog.csdn.net/DeepOscar/article/details/81036635https://blog.csdn.net/maverick17/article/details/79574917马尔科夫性:只要知道现在,将来和过去条件独立定义:如果在t时刻的状态St满足如下等式,那么这个状态被称为马尔科夫状态,或者说该状态满足马尔科夫性。...

2019-03-18 11:25:20 160

原创 最大熵模型

1.最大熵模型:联合分布,边缘分布,条件分布, 经验分布为了避免混淆三种分布的定义,这里举一个最简单的例子。设 x,y的联合分布如下(横轴是x的取值,纵轴y是的取值) x/y0.1 0.3 0.1 0.50.2 0.2 0.1 0.50.3 0.5 0.2 1两者的边缘分布为0.5 0.5 两个表格的分割线 0.3 0.5 0.2条件分布为:在特定的条件下这个事情发...

2019-03-18 10:40:52 383

原创 数据分析与数据挖掘的简单了解

数据分析:对数据进行处理,用一些比较直观的形式分析 现状,原因,预测,不能建模数据挖掘:对数据进行采集,处理,并且建模最终完成预测,数据挖掘一般分为四类:分类,聚类,关联,预测四类任务两者的区别在于数据分析在于对数据的观察,而数据挖掘在与挖掘其内在的规则,完成建模,预测,他们两个的界限其实没有必要分那么清,而且在工作当中,数据挖掘工程师很可能也在做数据分析,个人觉得,数据分析比较侧重与业务。...

2019-03-18 10:23:20 886

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除