K-Means聚类算法原理 K-Means算法是无监督的聚类算法,它实现起来比较简单,聚类效果也不错,因此应用很广泛。K-Means基于欧式距离认为两个目标距离越近,相似度越大。1. 牧师-村民模型2. K-Means原理初探K-Means算法的思想很简单,对于给定的样本集,按照样本之间的距离大小,将样本集划分为k个簇。让簇内的点尽量紧密的连在一起,而让簇间的距离尽量的大。质心:均值,即向量各维取平均即可。 直接求解上式的最小值困难,这是np难...
用户体验--NPS&满意度指标 一、NPS1. 什么是NPS值?NPS值(Net Promoter Score,净推荐值)是度量“客户向他人推荐某品牌/产品/服务倾向”的指标,是当前国际通用的衡量客户行为忠诚的核心指标,本质上是一种客户口碑及行为忠诚2. 为什么要持续监控NPS?通过教育行业调研发现,口碑推荐是用户愿意体验尝试产品的最主要、也是最为信任的渠道,同时也是在促进用户购买决策中起到至关重要的作用,因此要持续监控NPS指标,营造口碑效应3. NPS得分如何获取?目前业务NPS均通过产品化手段实现NPS调研问卷的回收,.
常用的分析方法及模型 一、战略与组织工具1.SWOT分析:战略规划的经典分析工具2.PEST分析:组织外部宏观环境分析工具3.BCG矩阵法:制定公司层战略最流行的工具4.GE矩阵:企业決定发展战略的分析工具5.定向政策矩阵:战略业务组合计划分析工具6.IE矩阵:标识企业分布地位的分析工具7.竞争态势矩阵:企业战略制定提供竞争优势的分析工具8.麦肯锡三层面分析:企业设计战略规划、开拓增长的有效工具9波特五力分析:行业竞争战略最流行的分析工具10.战略集团分析法:行业内企业竞争格局分析工具
python练习 """对几个硬盘内存按照容量大小排序:对提供的几个不同容量的硬盘从小到大排序输入: 第一行为 硬盘数量,后面每行为 每个硬盘的大小 (单位是M,G,T的组合形势), eg. 3M2G, 1024M, 5G12M, 2T15M输出: 按从小到大的顺序输出 (注意同等大小的硬盘(eg.1024M 和 1G),需要保序输出)举例:31T3M2G输出:3M2G2G5M1T"""while True: try: s =[] # 磁盘容量数组 for.
tableau制作高级可视化图表 1、帕累托图:Pareto Chart 帕累托图是一种包含条形图和折线图的图表,其中各个值均已条形兼顾表示,上升的累计总计由线条表示。它是为纪念意大利工程师、社会学家、经济学家、政治学家和哲学家 Vilfredo Pareto 而命名的,Vilfredo Pareto 制定了所谓的帕累托原理。帕累托观测到 80% 的土地通常由 20% 的人口所拥有。帕累托观察到他的花园中 20% 的豆荚含有 80% 的豌豆,从而扩展了他的原理。最终,他人进一步推断了该原理,提出在许多事件中,大约 80% 的...
python--时间序列 1、时间序列pandas.date_range(start, end, periods, freq,)start: 生成日期的左边界;end: 生成日期的右边界;periods: 周期数;freq: 频率注意:四个参数start,end,periods,和freq,恰好有三个必须指定;import numpy as npimport pandas as pdimport datetime...
第一章 概率论的基本概念 0 引言(1)确定性现象(必然现象):一定条件下一定发生或一定不发生;(2)随机现象(偶然现象):在个别试验中结果呈现出不确定性,大量重复试验中结果具有统计规律性的现象,称为随即现象;(3)统计规律性:在大量重复试验或观察中所呈现出的固有规律性,即统计规律性;1. 随机试验(1)试验:大量观察、测量、科学观察(2)随机试验,E:三个特点:在相同条件下可以重复进行;每次试验的结果可能不止一个,事先明确试验的所有可能结果;试验之前不能确定哪一个结果会发生;具备三个特点的试验即随机试验;
seaborn.barplot柱状图详说 1、seaborn.barplot参数:seaborn.barplot(x=None, y=None, hue=None, data=None, order=None, hue_order=None, estimator=mean , ci=95, n_boot=1000, units=None, seed=None, orient=None, color=None, palette=None, saturation=0.75, errcolor='.26', errwidth=None, cap
XGBoost XGBoost (eXtreme Gradient Boosting)极限梯度提升算法1、安装#windowspip install xgboost #安装xgboost库pip install --upgrade xgboost #更新xgboost库#MACbrew install gcc@7pip3 install xgboost2、
python--内置函数 1、python内置函数:类型转换 数学运算 常用 int() max() all() range() help() float() min() any() set() format() long() sum() type() zip() str() abs() enumerate() bool() pow() ...
python tips (1)jupyter notebook 中markdown显示图片:<img src="f1.png" alt="FAO" width="990"> # src 源图片路径(2)过滤warnings消息import warningswarnings.filterwarnings('ignore')
数据预处理与特征工程 1、数据预处理与特征工程数据挖掘的5大流程:获取数据 数据预处理 数据预处理是从数据中检测、纠正或删除损坏、不准确或不适用于模型记录的过程。 可能问题:数据类型不同,比如有的是文字,有的是数字,有的含时间序列,有的连续,有的间断;也可能,数据质量不行,有噪声,有异常,有缺失,数据出错,量纲不一,有重复,数据是偏态,数据量太大或太小。 数据预处理的目的:让数据适应模型,匹配模型的需求。 3.特征工程 特征工程:是将原始数据转换为更能代表预测模型的...
决策树 1、决策树:Decision Tree 决策树是一种用于分类和回归的非参数有监督学习方法。sklearn.tree.export_graphviz(decision_tree, out_file=None, *, max_depth=None, feature_names=None, class_names=None, label='all', filled=False, leaves_parallel=False, impurity=True, node_ids=False, prop..
线性回归 这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Markdown编辑器你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Mar
数据可视化库一--matplotlib 1、import matplotlib.pyplot as pltFunction Description plt.figure(figsize,dpi,facecolor,edgecolor,frameon) Create a new figure: figsize(宽度,高度,单位:英寸),默认rcParams[figure.figsize]:[6.4,...
pandas数据处理库 1、DataFrame属性属性或方法 描述 DataFrame.index DataFrame的index(行标签) DataFrame.columns DataFrame的列标签 DataFrame.dtypes 返回DataFrame的数据类型 DataFrame.select_dtypes(self[,include,exclude]) Re...
python之numpy模块 1、numpy数组属性numpy数组的维数称为秩(rank),秩即轴的数量,即数组维度,一维数组的秩为1,二维数组的秩为2,以此类推。在numpy中,每一个线性的数组称为是一个轴(axis),即维度(dimensions)。比如,二维数组相当于是两个一维数组,其中第一个一维数组中每个元素又是一个一维数组。所以一维数组就是 numpy中的轴(axis),第一个轴相当于是底层数组,第二个轴是底...
python内置函数 1、type():如果只有第一个参数返回对象是类型,三个参数返回新的类型对象isinstance()与type()区别: type()不会认为子类是一种父类类型,不考虑继承关系; isinstance()会认为子类是一种父类类型,考虑继承关系;如果要判断两个类型是否相同使用isinstance()语法: type(object) type(name,b...