自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 收藏
  • 关注

原创 聚类算法K-Means++介绍与实例

K-Means++算法介绍K-Means++主要解决初始化种子点的问题,其选择初始种子的基本思想是:初始聚类中心之间相互距离要在K-Means算法基础上引入了更智能的初始化步骤,该步骤倾向于选择彼此相距较远的中心点,这一改进使得K-means算法收敛到次优解的可能性很小。K-Means++算法表明,更智能的初始化步骤所需计算量是值得的,因为他可以大大减少寻找最优解所需运行算法的次数。K-Means算法实现步骤1.取一个中心点C1,从数据集中随机选择一个中心点。2.取一个新中心点Ci,选择一个概率为

2021-07-16 21:09:37 2416 1

原创 零-均值标准化推导过程

正态分布自然界中的很多随机变量都服从或近似服从正态分布,如测量的误差,人群的身高,体重,工厂产品的直径、长度、重量,电源的电压,因此正态分布是实践中应用最广泛的、最重要的分布。标准正态分布若X的密度函数为f(x)=12πe−x22,−∞<x<+∞f\left ( x \right ) = \frac{1}{\sqrt{2\pi }}{e}^{-\frac{x^{2}}{2}} , -\infty <x< +\infty f(x)=2π​1​e−2x2​,−∞

2021-07-11 11:27:28 1428

原创 k-means聚类算法实现

聚类算法简介在未知模式识别问题中,通常需要从一堆没有标签的数据中找到其中的关联性。一是要发现数据之间的相似性,也被称为聚类(Clustering);二是要统计数据在空间上的分布,也就是密度估计。聚类可谓无监督学习中最重要的一个作用。聚类的定义聚类是将集中具有相似特性的数据分类组织的过程,聚类技术是一种无监督学习。聚类又称为群分析,是研究样本或指标分类问题的一种统计分析方法。聚类与分类的区别是其要划分的类是未知的,常用的聚类分析法中有系统聚类法、有序样本聚类法、动态聚类法、模糊聚类法、图论聚类法和聚类预

2021-07-11 00:06:18 469 2

原创 [pytorch]通过CNN实现手写数字识别(附完整代码)

CNN实现手写数字识别卷积神经网络介绍什么是卷积paddingstride(步长)三维卷积池化层LeNet-5卷积神经网络LeNet-5实现(pytorch)卷积神经网络介绍卷积神经网络它的优点在于,需要调优的参数比全连接神经网络少的多,因此他的训练速度会快很多。一般多用于做视觉识别。什么是卷积下面我们来看一下这张图片,从下图我们可以看到左边这个二维矩阵表示的是一张661的图片,661意思是一张长为6宽为6通道数为1的图片,一张彩色的图片的通道数是3,所以我们调颜色有三个值分别是RGB。中间是

2020-11-23 20:37:01 6000 7

原创 TF-IDF的应用(一)比较文章相似度(附完整代码)

1111

2020-11-16 20:10:39 1146

原创 jieba实现基于tf-idf算法的关键词提取(附完整代码)

@基于itf-idf算法的关键词提取提出问题假设我们现在有一篇文章,需要提取这篇文章的关键词,要怎样才能通过计算机实现呢?TF-IDF算法介绍一篇文章的关键词基本都是能体现文章的内容,而且几乎是在文章中频繁出现的词,统计文章中各个词出现的次数,出现最多的则是这篇文章的关键词了,那具体是怎么统计呢,这里有一个专业术语叫词频(term frequency),简称TF。计算公式如下:TF(词频) = 某次在文章中出现的次数 / 文章中的总词数举例子:我正在学习人工智能,并且我一定会成功的。**通过j

2020-11-10 11:11:08 13718 3

原创 python常见异常以及解决方案

一. Error: local variable ‘baiduFile’ referenced before assignment这句话的意思是baiduFile这个变量没有进行定义以及赋值就直接引用了,因此找出baiduFile定义相关的语句检查一下原因为什么没有执行到。

2020-11-08 15:35:15 464

转载 中文分词算法—— 基于词典的方法

1、基于词典的方法(字符串匹配,机械分词方法)定义:按照一定策略将待分析的汉字串与一个“大机器词典”中的词条进行匹配,若在词典中找到某个字符串,则匹配成功。按照扫描方向的不同:正向匹配和逆向匹配按照长度的不同:最大匹配和最小匹配1.1正向最大匹配思想MM1》从左向右取待切分汉语句的m个字符作为匹配字段,m为大机器词典中最长词条个数。2》查找大机器词典并进行匹配。若匹配成功,则将这个匹配字段作为一个词切分出来。若匹配不成功,则将这个匹配字段的最后一个字去掉,剩下的字符串作为新的匹配字段,进行再次

2020-06-22 09:02:39 3018

原创 pytorch实现DNN-例子

import torchimport torch.nn as nnimport torch.nn.functional as Fimport torch.optim as optimfrom torchvision import datasets,transformsfrom torch.autograd import Variable#training settingbatch_size = 16# MNIST Datasettrain_dataset = datasets.MNIST

2020-06-20 16:59:13 9768 2

原创 from…import * 语句与 import 区别

import 模块:导入一个模块;注:相当于导入的是一个文件夹,是个相对路径。from…import:导入了一个模块中的一个函数;注:相当于导入的是一个文件夹中的文件,是个绝对路径。# 导入模块import support # 现在可以调用模块里包含的函数了support.print_func("Runoob")# 导入模块from support import *# 现在可以调用模块里包含的函数了print_func("Runoob")...

2020-06-20 16:27:44 232

转载 什么是最小二乘法

最小平方法是十九世纪统计学的主题曲。 从许多方面来看, 它之于统计学就相当于十八世纪的微积分之于数学。----乔治·斯蒂格勒的《The History of Statistics》1 日用而不知来看一个生活中的例子。比如说,有五把尺子:用它们来分别测量一线段的长度,得到的数值分别为(颜色指不同的尺子):之所以出现不同的值可能因为:不同厂家的尺子的生产精度不同尺子材质不同,热胀冷缩不一样测量的时候心情起伏不定…总之就是有误差,这种情况下,一般取平均值来作为线段的长度:日常中就是这么

2020-06-18 17:29:45 999

转载 python ——super的用法

如果在子类中需要父类的构造方法就需要显式地调用父类的构造方法,或者不重写父类的构造方法。子类不重写 init,实例化子类时,会自动调用父类定义的 init。class Father(object): def __init__(self, name): self.name=name print ( "name: %s" %( self.name) ) def getName(self): return 'Father ' + self.nam

2020-06-17 19:57:46 110

转载 PyTorch计算图

PyTorch计算图计算图(Computational Graph)计算图(Computational Graph)计算图是计算代数中的一个基础处理方法,我们可以通过一个有向图来表示一个给定的数学表达式,并可以根据图的特点快速方便对表达式中的变量进行求导。而神经网络的本质就是一个多层复合函数, 因此也可以通过一个图来表示其表达式。#torch.autograd.Variable 实现自动求导"""本质上Variable和Tensor没有什么区别,不过Variable会放在一个计算图里面,可以

2020-06-16 21:24:28 384

原创 Pandas(一)

Pandas(一)Pandas是什么?核心数据结构数据离散化Pandas是什么?专门用于数据挖掘的开源python库以numpy为基础,借助numpy高效运算的优势基于matplotlib,能够简便的画图核心数据结构pandas具有三大核心数据结构:DataFrame、panel、seriesDataFrame:既有行索引、又有列索引的的二维数组。store_change = np.random.normal(0,1,(10,5))print(store_change)执行后入下图所示,

2020-06-14 20:03:20 247

原创 信息熵

熵(entropy,也称信息熵)用来度量一个属性的信息量。假定S为训练集,S的目标属性C具有m个可能的类标号值,C={C1,C2,…,Cm},假定训练集S中,Ci在所有样本中出现的频率为pi (i=1,2,3,…,m),则该训练集S所包含的信息熵定义为:熵越小表示样本对目标属性的分布越纯,反之熵越大表示样本对目标属性分布越混乱。...

2020-06-07 14:24:46 409

转载 数据挖掘 - 分类与回归

数据挖掘分类与回归的比较分类和回归都属于监督性学习。那么他们的区别是什么呢?简单来说,我们现在有x和y值,分类的目标y值是属于离散值,而回归的目标y值是连续值。举个栗子, 汽车的不同颜色比如红,黑,白,属于离散值,而今天的气温则是连续值。如果来比较他们的原理,给出几个点,找出拟合性最强的那条线是回归。如下图:给出几个属于两个不同类别的点,找出那条最能把两个类别的点区分出来的线就是分类。如下图:原文链接:https://blog.csdn.net/weixin_41095510/article/de

2020-06-07 08:36:05 336

转载 项目进度管理(下)(重要考点)

6.3 项目进度管理的技术和工具1、 软件开发项目通常用 LOC 衡量项目规模, LOC 指所有的可执行的源代码行数例如,某软件公司统计发现该公司每一万行C语言源代码形成的源文件约为250KB。某项目的源文件大小为3.75MB,则可估计该项目源代码大约为15万行,该项目累计投入工作量为240人月,每人月费用为10000元(包括人均工资、福利、办公费用公摊等)则该项目中1LOC的价值为:...

2019-07-23 21:52:53 2543

转载 项目进度管理(上)(考试重点)

更多干货请关注“信息系统项目管理师通关”6.1 概述1、项目进度管理包括7个过程: ① 规划进度管理—为规划、编制、管理、执行和控制项目进度而制定政策、程序和文档过程。 ② 定义活动—识别和记录为完成项目可交付成果而需采取的具体行动的过程。 ③ 排列活动顺序—识别和记录项目活动之间的关系的过程。 ④ 估算活动资源—估算执行各项活动所需材料、人员、设备或用品的种类和数量的...

2019-07-20 11:56:29 370

原创 项目范围管理(重点)-真题答案与解析

例题 1: 高级 05 下试题 291、项目范围是否完成和产品范围是否完成分别以(1)作为衡量标准。A.项目管理计划,产品需求 B.范围说明书,WBSC.范围基线,范围定义 D.合同,工作说明书答案:A解析:项目范围是否完成以项目管理计划、项目范围说明书、WBS、以及WBS字典作为衡量标准,而产品范围是否完成以产品要求作为衡量标准。两种范围管理需要很好地集成起来,以确保项目工作能产生所...

2019-07-13 23:18:17 6023

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除