2020年12月_开数据挖掘机的小可爱

原创【机器学习】——K_means如何选择k值？

K_means聚类是我们在无监督学习中常用的一种算法，但有一个很让人头疼的问题就是如何选择k值。在实际业务中，如果根据业务场景明确知道要得到的类数，那就好办了，但很多时候不知道K怎么办呢？下面有三种方法可以用来确定k值，其基本思想还是最小化类内距离，最大化类间距离，使同一簇内样本尽可能相似，不同簇中样本尽可能不相似.1.肘部法随着k值增大，误差值会越来越小（举一个极端的例子：当每一个样本被分为一个类时，类内间距最小，但这显然不是我们想要的），因此可根据不同k值下的误差曲线选择使误差平方和下降最快

2020-12-30 15:38:17 5886

原创【深度学习】——优化器

神经网络参数优化器神经网络的训练过程是通过迭代更新超参数来最小化损失函数的过程，最终目标是找到使损失函数最小，最能准确预测的超参数组合。而在更新迭代超参数时就需要用到不同的优化器，本文简要介绍几种常用的优化器。1.优化器基本步骤①计算t时刻损失函数关于当前参数的梯度：②计算t时刻的一阶动量mt（与梯度相关的函数）和二阶动量Vt（与梯度平方相关的函数）③计算t时刻下降梯度：④更新t+1时刻参数：各个优化器的基本步骤和原理都是这样的，优化器的区别就是一阶动量和二阶动量的设计不同。2.SG

2020-12-27 22:58:18 953

原创【深度学习】——神经网络中常用的激活函数：sigmoid、Relu、Tanh函数

激活函数实际中的很多事情并不能简单的用线性关系的组合来描述。在神经网络中，如果没有激活函数，那么就相当于很多线性分类器的组合，当我们要求解的关系中存在非线性关系时，无论多么复杂的网络都会产生欠拟合。激活函数就是给其加入一些非线性因素，使其能够处理复杂关系。1.Sigmoid函数：把输入值映射到[0,1],其中0表示完全不激活，1表示完全激活其图像为：特点：①sigmoid函数的导数取值范围在【0，0.25】之间，在深度网络中，需要用链式法则多次求导，导数为多个在【0，0。25】之间的数相乘，结果

2020-12-27 19:36:40 3272

原创【Tensorflow】——张量：创建、常用函数

TensorflowTensor（张量）一、创建张量1. 直接创建2.用numpy数据类型转换为tensor类型3.创建特殊的张量二、 Tensorflow常用函数1.平均、求和2. 标记可训练变量：3. 数学运算：4. 切分传入张量的第一维度，生成特征/标签对，构建数据集5. 计算张量的梯度6.遍历每个元素7.独热编码8.激活函数softmax(y)9. 自更新函数10.获取张量沿指定维度最大值的索引 Tensorflow是当下最流行的深度学习框架之一， Tensorflow可以分为tensor（张

2020-12-27 15:31:42 494

原创【数据结构】——树：二叉树的遍历

1.度：节点的度：某个节点的子节点个数树的度：节点最大的度数2.二叉树：最多有两颗子树：左子树、右子树满二叉树：除最后一层没有子节点外。其余每一层的所有节点都有两个子节点完全二叉树：在深度为d的二叉树中，除了第d层，其他各层节点数均为2 满二叉树和完全二叉树区别：完全二叉树可允许在中间层包含叶子节点，满二叉树只允许最后一层为叶子节点3.二叉树的遍历主要区别：访问根节点的顺序① 前序遍历：访问根节点-前序遍历左子树-前序遍历右子树：A-B-D-E-Cclass aT

2020-12-21 21:29:46 102

原创【数据结构】——查找算法：顺序查找、二分查找

一、in 最简单的查找算法：for i in range(3)二、顺序查找11.无序列表顺序查找的时间复杂度较高为O（n）若要查找的元素在列表中有多个，则在查找到第一个后即停止时间复杂度：最好：O（1）最好即第一个元素就是目标元素当不存在要查找的元素时为O（n）最坏：O（n）最坏是查到最后一个才找到目标元素#无序列表的顺序查找m=[1,5,3,9,7]def seqSearch(alist,item): i=0 found=False whil

2020-12-21 18:31:50 470

原创【数据结构】——交换排序算法：冒泡排序、快速排序

一、冒泡排序：（稳定）1.基本思想成对比较：比较相邻元素，若第一个大于第二个，则交换对每一对相邻元素做同样工作，这一步完成后最后的元素将是最大的数针对所有元素重复以上过程（除去排好序的数字）没有任何一对元素发生交换时，停止排序2.代码实现#冒泡排序m=[1,3,4,2]def Bubble_sort(alist): n=len(alist) count=False for i in range(0,n-1):#循环每一对 for j in

2020-12-21 10:28:20 123

原创【数据挖掘】——向量and矩阵

一、向量向量加减：m+n:对应位置元素加减向量乘以常数：m*3向量点乘（内积）：np.dot(m,n)相应位置元素相乘再相加向量叉乘（外积）：np.cross(m,n)向量哈达玛积：m*n对应位置相乘二、矩阵矩阵创建：np.mat(np.random.randint(1,10,size=(2,3))矩阵加减：A+B对应位置相加减，两个矩阵必须具有相同阶矩阵与数相乘：A*2矩阵与向量相乘：保证矩阵列数等于向量行数#矩阵与向量相乘import numpy as npA=np.m

2020-12-20 13:51:15 216

原创【数据挖掘】——pandas中Series和Dataframe

1. Series 类似numpy中的一维数组，但series更灵活，可以自定义索引。创建一维数组：s=Series(data=[1,2,3,4],index=list(‘abcd’))获取数组中的数据：s.values获取数组中的索引：s.index获取数据中的键值对：list(s.iteritems())将字典转换为Series：s=Series(dict),字典的key变为数组的索引，字典的value变为数组的value获取数组中的某个值：①按索引获取：s[ ‘小明’ : ’小亮’

2020-12-19 18:51:04 232 1

原创【数据挖掘】—— 一文搞懂Numpy基本操作

Numpy是一个python科学计算库，支持数组和矩阵操作，可用于处理数值类型的数据，进行数值的计算分析一、ndarray ndarray是一个N维数组对象，它里边的数据必须是同类型的，而python中的list对象中数据可以是不同类型的。1.一维数组 ①将list转化为array:np.array(list)#数组计算a=[[1,2,3,4],[2,3,4,5],[3,4,5,6],[4,5,6,7]]b=np.array(a)print(b) ②利用range生成序列，利用

2020-12-19 12:05:51 174 1

原创【数据挖掘】——Matplotlib可视化-常用图表绘制

一、基本格式设置 Matplotlib:python中一个数据可视化的库，可绘制2D图形，也就是说图形中包含x轴和y轴，因此在进行画图时需要传入x和y值。下面是一些关于绘图中的格式参数的介绍：① 设置图片大小：通过画布大小改变图片大小 plt.figure(figsize=(4,4),dpi=100) figsize：画布大小，是一个包括长和宽的列表 dpi：设置分辨率，dpi=100表示没一英寸有100个像素点④ 保存图片： plt.

2020-12-18 18:41:47 664 1

原创【文本挖掘】——文本信息化——词袋模型

文本信息化一、词袋模型：1.One-hot2. One-hot＝Bag of Words词袋模型3.gensim实现词袋模型将文本信息数值化，从而便于建模。工欲善其事，必先利其器。在数据挖掘中，数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已。因此文档信息向量化决定模型的高度。一、词袋模型：1.One-hot 在之前做纯数据挖掘时，我记得它叫独热编码，它的基本思想时将每个特征可能取到的值单独作为一个变量，该变量出现记为1，不出现记为0. 在文本分析中，它是一种最早用于提取文

2020-12-17 23:05:18 960

原创【文本挖掘】——词频统计、词云绘制与美化+[微微一笑很倾城]实战

这里写目录标题一、词频统计：1.基本概念及原理2.词频统计方法二、词云1.词云绘制工具：2.python词云绘制——Wordcloud三、基于分词频数绘制词云1.利用词频绘制词云2.美化词云一、词频统计：1.基本概念及原理这一步是在做完分词之后进行的，所以以下所有步骤都基于分词后构建的词条的list进行。说白了他就是统计每个词在文中出现过多少次，主要目的是为找出频次高的”关键词“打基础。词频统计的伪代码：2.词频统计方法①基于pandas的词频统计：输出结果为一个序列，该序列每一行的

2020-12-17 00:36:51 4134

原创【文本挖掘】——中文分词

这里写目录标题一、分词算法二、分词的难点三、常见分词工具四、结巴分词模式五、修改词典六、去除停用词七、词性标注一、分词算法分词算法主要有基于字符串的匹配和基于统计和机器学习的分词1.基于字符串的匹配：以现有的词典为基础进行，扫描字符串，若发现字符串的子串和词相同，即为匹配，通常加入一些启发式规则：正向/反向最大匹配、长词优先等。{①最大匹配法：以设定的最大词长度为框架，取出其中最长的匹配词。如：“中国共产党”会被完整取出，而不会被进一步分词②最大概率法：对句子整体进行分词，找到最佳的词汇排列组合

2020-12-16 17:12:14 1246 1

原创【机器学习】——感知机学习算法

1.感知机：根据输入实例的特征向量X对其进行二分类的线性分类模型2.目标：感知机模型从输入空间到输出空间的映射可表示为y=f(x)=sign(w*x+b)，感知机学习的目的就是学得一个使训练样本正例与负例完全正确分开的超平面wx+b=0，也就是学习参数w和b3.损失函数：用分类错误的点到超平面的距离表示。点到平面的距离公式为：因此一个分类错误的点到超平面的距离为：因为在函数y=f(x)=sign(wx+b)中sign为符号函数，因此当wx+b≥0时，y=1;当w*x+b≤ 0时，y=-1;因此对于任

2020-12-05 22:02:28 1677

原创【统计学习方法】——生成模型/判别模型

监督学习方法{生成方法→生成模型判别方法→判别模型监督学习方法\left\{\begin{aligned}生成方法→生成模型\\ \\判别方法→判别模型\end{aligned}\right.监督学习方法⎩⎪⎨⎪⎧生成方法→生成模型判别方法→判别模型2.生成方法：先学习联合概率分布，再求出条件概率分布作为预测模型，即生成模型表示了输入X产生输出Y的生成关系常见的生成模型：朴素贝叶斯、隐马尔可夫模型判别方法：直接学习决策函数或条件概率分布作为预测模型判别模型关心给定的输入X，...

2020-12-05 14:59:34 228

原创【机器学习】——聚类相关理论及性能度量

聚类的概念聚类是一种无监督学习，即训练数据中是不含标签等标记信息的。聚类就是根据给定样本内部的特征，将其划分到若干个类别，每个类别就是一个簇，聚类的结果就是使得同一簇内的样本尽可能相似，即相似度较大，而不同簇之间相似度尽可能小。而此相似度的衡量可通过样本间的距离衡量。简单来说，聚类就是我们平时所说的“物以类聚”。硬聚类和软聚类通过聚类得到的结果是若干个簇，其本质是样本的子集。硬聚类：聚类得到的结果中，一个样本只属于一个簇，也就是说任意两个簇的交集为空集。软聚类：一个样本可以被划分到多个簇，即：两.

2020-12-01 22:57:43 1666 1

m0_46568930的博客