算法原理
IT界的小小小学生
写文章的目标不仅是解决问题,更是帮助阅读的人或企业实现商业价值。秉持 “从解决问题出发、在实践中学习,最终创造价值”的信念,予人玫瑰手留余香!
展开
-
python与java实现余弦相似度,以及点乘和星乘的区别
文章目录矩阵乘法,星乘(*)和点乘(.dot)的区别1.基本示例2. 总结python实现余弦相似度java实现余弦相似度矩阵乘法,星乘(*)和点乘(.dot)的区别1.基本示例import numpya = numpy.array([[1,2], [3,4]])b = numpy.array([[5,6], [7,8]...原创 2020-04-15 22:41:46 · 906 阅读 · 0 评论 -
在统计学中概率分布中的概率密度函数PDF,概率质量PMF,累积分布CDF
一. 概念解释PDF:概率密度函数(probability density function), 在数学中,连续型随机变量的概率密度函数(在不至于混淆时可以简称为密度函数)是一个描述这个随机变量的输出值,在某个确定的取值点附近的可能性的函数。PMF : 概率质量函数(probability mass function), 在概率论中,概率质量函数是离散随机变量在各特定取值上的概率。CD...原创 2018-03-16 12:03:47 · 7660 阅读 · 0 评论 -
python中list、array、matrix之间的基本区别
python科学计算包的基础是numpy, 里面的array类型经常遇到. 一开始可能把这个array和python内建的列表(list)混淆, 这里简单总结一下列表(list), 多维数组(np.ndarray)和矩阵(np.matrix)的区别.numpyNumPy的主要对象是同种元素的多维数组。这是一个所有的元素都是一种类型、通过一个正整数元组索引的元素表格(通常是元素是数字)。...原创 2018-03-20 14:46:13 · 4835 阅读 · 0 评论 -
python如何保存矩阵,保存matrix,保存numpy.ndarray
问题:如何将array保存到txt文件中?如何将存到txt文件中的数据读出为ndarray类型?python如何保存矩阵,保存matrix,保存numpy.ndarraypython中list、array、matrix之间的基本区别:直通车分析a = np.arange(0,12,0.5).reshape(4,-1) np.savetxt("a.txt", a) # 缺省按照'...原创 2018-03-20 17:40:07 · 70748 阅读 · 0 评论 -
贝叶斯篇:贝叶斯的概率推到,朴素贝叶斯分类器及Python实现
在了解贝叶算法前:要有一定的概率与数理统计基础以及注意事项条件概率首先,理解这两个公式的前提是理解条件概率,因此先复习条件概率。 P(A|B)=P(AB)P(B)P(A|B)=P(AB)P(B)P(A|B) ={ P(AB)\over P(B)}那么由条件概率出发,看一下变形出来的乘法公式: P(AB)=P(A)⋅P(B|A)=P(B)⋅P(A|B)P(AB)=P(A)⋅P(...原创 2018-03-20 18:35:47 · 1728 阅读 · 0 评论 -
SVM:利用sklearn 实现SVM分类 相关参数说明ING
scv 函数class sklearn.svm.SVC(C=1.0, kernel=’rbf’, degree=3, gamma=’auto’, coef0=0.0, shrinking=True, probability=False, tol=0.001, cache_size=200, class_weight=None, verbose=False, max_iter=-1, deci...原创 2018-03-27 11:51:31 · 1199 阅读 · 0 评论 -
皮尔森类似度(Pearson Similiarity)计算举例与数学特性和存在问题
Pearson Similiarity皮尔森相关系数(Pearson correlation coefficient)也叫皮尔森积差相关系数(Pearson product-moment correlation coefficient),是用来反应两个变量相似程度的统计量。或者说可以用来计算两个向量的相似度(在基于向量空间模型的文本分类、用户喜好推荐系统中都有应用)。 皮尔森相关系数计算公式...原创 2018-04-10 15:43:08 · 3218 阅读 · 0 评论 -
开源|LightGBM基本原理,以及调用形式
久前微软 DMTK (分布式机器学习工具包)团队在 GitHub 上开源了性能超越其他 boosting 工具的 LightGBM 知乎上有近千人关注“如何看待微软开源的 LightGBM?”问题,被评价为“速度惊人”,“非常有启发”,“支持分布式”,“代码清晰易懂”,“占用内存小”等。GBDT : GBDT (Gradient Boosting Decision Tree) 是机...原创 2018-04-24 18:08:48 · 6122 阅读 · 0 评论 -
关于adaboost、GBDT、xgboost之间的区别与联系
AdaBoost:提高那些被前一轮弱分类器错误分类样本的权值,而降低那些被正确分类样本的权值。这样一来,那些没有得到正确分类的数据,由于其权值的加大而受到后一轮的弱分类器的更大关注,于是,分类问题就被一系列的弱分类器“分而治之”。至于第二个问题,即弱分类器的组合,AdaBoost采取加权多数表决的方法。具体地,加大分类误差率小的弱分类器的权值,使其在表决中起较大的作用,减小分类误差率较大的弱分类器...原创 2018-07-03 10:04:29 · 7232 阅读 · 0 评论 -
机器学习之聚类算法:密度聚类BDscan,整理ing
首先生成数据样本如下:#!usr/bin/env python#_*_ coding:utf-8 _*_import numpy as npimport matplotlib.pyplot as pltfrom sklearn import datasetsX1, y1=datasets.make_circles(n_samples=5000, factor=.6,noise=....原创 2018-07-07 10:39:50 · 1427 阅读 · 0 评论 -
通过sklearn 实现LabelEnconder 编码,之后进行xgboost预测。
通过sklearn 实现babel 编码,之后进行xgboost预测。 LabelEncoder() 更多编码操作可以参考:链接直通车from sklearn.preprocessing import LabelEncoderfrom sklearn.model_selection import train_test_splitimport xgboost as xgbimport ...原创 2018-08-18 11:11:03 · 1880 阅读 · 0 评论 -
泊松分布 二项分布 正态分布之间的联系,与绘制高斯分布图
**2018博客之星评选,如果喜欢我的文章,请投我一票,编号:No.009** [支持连接](https://blog.csdn.net/HHTNAN/article/details/85330758) ,万分感谢!!! 基础知识 二项分布有两个参数,一个 n 表示试验次数,一个 p 表示一次试验成功概率。现在考虑一列二项分布,其中试验次数 n 无限增加,而 p 是 n 的函数。...原创 2017-03-14 17:08:42 · 15929 阅读 · 0 评论 -
随机森林基本原理
基础内容:这里只是准备简单谈谈基础的内容,主要参考一下别人的文章,对于随机森林与GBDT,有两个地方比较重要,首先是information gain,其次是决策树。这里特别推荐Andrew Moore大牛的Decision Trees Tutorial,与Information Gain Tutorial。Moore的Data Mining Tutorial系列非常赞,看懂了上面说的两个内容之后的...转载 2017-01-17 10:48:04 · 13013 阅读 · 4 评论 -
LDA详解:自然语言处理
LDA,其实有两种含义,一种是统计学中的分析方法:线性判别分析(Linear Discriminant Analysis),一种概率主题模型:隐含狄利克雷分布(Latent Dirichlet Allocation,简称LDA),本文阐述后者。 LDA(Latent Dirichlet Allocation)是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层转载 2017-03-14 16:50:02 · 4099 阅读 · 0 评论 -
新媒体指数评价方法:相应计算公式
在对平面媒体的广告价值进行研究的过程中,主要考虑四个方面的因素:一、媒体的受众规模;二、媒体的受众构成;三、媒体对受众影响力;四、广告主对媒体的接受度。影响媒体广告价值的因素还有很多,相互作用也非常复杂,因此,在操作过程中,采用一种创新性的研究模式——开元因子加成分析法,从而使研究结果更全面、客观和科学。 必备成员 1 一批优秀的市场研究人原创 2017-03-31 14:12:30 · 3812 阅读 · 0 评论 -
递归与伪递归区别,Python 实现递归与尾递归
递归函数在函数内部,可以调用其他函数。如果一个函数在内部调用自身本身,这个函数就是递归函数。(1) 递归就是在过程或函数里调用自身。(2) 在使用递归策略时,必须有一个明确的递归结束条件,称为递归出口。递归一般用于解决三类问题: (1)数据的定义是按递归定义的。(n的阶乘) (2)问题解法按递归实现。(回溯) (3)数据的结构形式是按递归定义的。(二叉树的遍历,图的原创 2017-03-15 15:47:02 · 2291 阅读 · 0 评论 -
计算机常用算法对照表整理
常用对照:NLPCRF算法: 中文名称条件随机场算法,外文名称conditional random field algorithm,是一种数学算法,是2001年提出的,基于遵循马尔可夫性的概率图模型。全部对照第一部分、计算机算法常用术语中英对照 Data Structures 基本数据结构 Dictionaries 字典 Priority Queues 堆 Graph Data原创 2017-07-26 10:58:01 · 11395 阅读 · 1 评论 -
sigmoid和tanh求导的最终结果,以及Sigmoid函数与损失函数求导
sigmoid Sigmoid函数,即f(x)=1/(1+e-x)。是神经元的非线性作用函数。 2. 函数:1.1 从指数函数到sigmoid 首先我们来画出指数函数的基本图形: 从上图,我们得到了这样的几个信息,指数函数过(0,1)点,单调递增/递减,定义域为(−∞,+∞),值域为(0,+∞),再来我们看一下sigmoid函数的图像: 如果直接把e−x放到分母上,就与ex图像一样了,所以原创 2017-10-23 11:11:17 · 16564 阅读 · 0 评论 -
python 利用递归实现全排列
使用递归实现全排列。123实现全排列! 法1: 上面定义了两个列表,一个列表存的是需要全排列的数据,另一个列表是当做栈来用的,可以把这个递归想成一棵树,在最顶端是包含所有值得列表,之后从这个列表中循环拿掉一个值,到了第二层,这时候栈里面存放的就是拿出来的那个数据,这一层的一个值里面就少了刚刚拿掉的值,一直到最后这个列表为空的时候,栈里面存的就是这个排列的结果,#!/usr/bin/env p原创 2017-11-09 17:53:19 · 5955 阅读 · 2 评论 -
关于决策树ID3算法,熵,信息增益率的权威解释,稍后奉上python代码
决策树分类算法概述 决策树算法是从数据的属性(或者特征)出发,以属性作为基础,划分不同的类。 看了本书,叫知识发现,内容很好,果断扫描 这里写图片描述 上面有不懂的欢迎留言!原创 2017-11-22 16:52:06 · 1035 阅读 · 0 评论 -
Python多元线性回归-sklearn.linear_model,并对其预测结果评估
在前面的博客已经介绍过多元回归模型,现在这里粗略介绍如下 python 实现案例1、选取数据 执行代码#!usr/bin/env python#_*_ coding:utf-8 _*_import pandas as pdimport seaborn as snsimport matplotlib.pyplot as pltimport matplotlib ...原创 2017-12-19 15:59:24 · 61595 阅读 · 29 评论 -
Sklearn-train_test_split随机划分训练集和测试集
sklearn.model_selection.train_test_split随机划分训练集和测试集 官网文档: 一般形式: train_test_split是交叉验证中常用的函数,功能是从样本中随机的按比例选取train data和testdata,形式为: X_train,X_test, y_train, y_test = cross_validation.train_test_sp原创 2017-12-12 10:43:35 · 5384 阅读 · 0 评论 -
神经网络中的学习速率如何理解
特征缩放实际当我们在计算线性回归模型的时候,会发现特征变量x,不同维度之间的取值范围差异很大。这就造成了我们在使用梯度下降算法的时候,由于维度之间的差异使得Jθ的值收敛的很慢。我们还是以房价预测为例子,我们使用2个特征。房子的尺寸(1~2000),房间的数量(1-5)。以这两个参数为横纵坐标,绘制代价函数的等高线图能看出整个图显得很扁,假如红色的轨迹即为函数收敛的过程,会发现此时函数收敛的非常慢。原创 2017-12-05 18:37:44 · 18070 阅读 · 0 评论 -
python 聚类分析实战案例:K-means算法(原理源码)
K-means算法: 关于步骤:参考之前的博客 关于代码与数据:暂时整理代码如下:后期会附上github地址,上传原始数据与代码完整版, 各种聚类算法的对比:参考连接Kmeans算法的缺陷1.聚类中心的个数K 需要事先给定,但在实际中这个 K 值的选定是非常难以估计的,很多时候,事先并不知道给定的数据集应该分成多少个类别才最合适 2.Kmeans需要人为地确定初始聚类中心,原创 2017-12-20 14:44:31 · 10643 阅读 · 4 评论 -
机器学习之随机森林(R)randomFordom算法案例
1.随机森林原理介绍 随机森林,指的是利用多棵树对样本进行训练并预测的一种分类器。该分类器最早由Leo Breiman和Adele Cutler提出,并被注册成了商标。简单来说,随机森林就是由多棵CART(Classification And Regression Tree)构成的。对于每棵树,它们使用的训练集是从总的训练集中有放回采样出来的,这意味着,总的训练集中的有些样本可能多次出现在一棵原创 2017-01-17 10:27:15 · 15583 阅读 · 3 评论