沸点数据-CSDN博客

原创 K-Means聚类算法原理

K-Means算法是无监督的聚类算法，它实现起来比较简单，聚类效果也不错，因此应用很广泛。K-Means基于欧式距离认为两个目标距离越近，相似度越大。1. 牧师-村民模型2. K-Means原理初探K-Means算法的思想很简单，对于给定的样本集，按照样本之间的距离大小，将样本集划分为k个簇。让簇内的点尽量紧密的连在一起，而让簇间的距离尽量的大。质心：均值，即向量各维取平均即可。直接求解上式的最小值困难，这是np难...

2021-11-23 15:43:27 7196

原创用户体验--NPS&满意度指标

一、NPS1. 什么是NPS值？NPS值（Net Promoter Score，净推荐值）是度量“客户向他人推荐某品牌/产品/服务倾向”的指标，是当前国际通用的衡量客户行为忠诚的核心指标，本质上是一种客户口碑及行为忠诚2. 为什么要持续监控NPS?通过教育行业调研发现，口碑推荐是用户愿意体验尝试产品的最主要、也是最为信任的渠道，同时也是在促进用户购买决策中起到至关重要的作用，因此要持续监控NPS指标，营造口碑效应3. NPS得分如何获取？目前业务NPS均通过产品化手段实现NPS调研问卷的回收，.

2021-11-12 17:20:34 8757

原创常用的分析方法及模型

一、战略与组织工具1.SWOT分析：战略规划的经典分析工具2.PEST分析：组织外部宏观环境分析工具3.BCG矩阵法：制定公司层战略最流行的工具4.GE矩阵：企业決定发展战略的分析工具5.定向政策矩阵：战略业务组合计划分析工具6.IE矩阵：标识企业分布地位的分析工具7.竞争态势矩阵：企业战略制定提供竞争优势的分析工具8.麦肯锡三层面分析：企业设计战略规划、开拓增长的有效工具9波特五力分析：行业竞争战略最流行的分析工具10.战略集团分析法：行业内企业竞争格局分析工具

2021-11-11 14:17:47 1222

原创 python练习

"""对几个硬盘内存按照容量大小排序：对提供的几个不同容量的硬盘从小到大排序输入：第一行为硬盘数量，后面每行为每个硬盘的大小 (单位是M,G,T的组合形势)， eg. 3M2G, 1024M, 5G12M, 2T15M输出：按从小到大的顺序输出 (注意同等大小的硬盘（eg.1024M 和 1G），需要保序输出）举例：31T3M2G输出：3M2G2G5M1T"""while True: try: s =[] # 磁盘容量数组 for.

2021-02-03 16:17:47 320 1

原创 tableau制作高级可视化图表

1、帕累托图：Pareto Chart 帕累托图是一种包含条形图和折线图的图表，其中各个值均已条形兼顾表示，上升的累计总计由线条表示。它是为纪念意大利工程师、社会学家、经济学家、政治学家和哲学家 Vilfredo Pareto 而命名的，Vilfredo Pareto 制定了所谓的帕累托原理。帕累托观测到 80％的土地通常由 20％的人口所拥有。帕累托观察到他的花园中 20％的豆荚含有 80％的豌豆，从而扩展了他的原理。最终，他人进一步推断了该原理，提出在许多事件中，大约 80％的...

2020-09-17 11:26:28 2275

原创 python--时间序列

1、时间序列pandas.date_range(start, end, periods, freq,)start: 生成日期的左边界；end: 生成日期的右边界；periods: 周期数；freq: 频率注意：四个参数start，end，periods，和freq，恰好有三个必须指定；import numpy as npimport pandas as pdimport datetime...

2020-08-24 20:19:20 496

转载第一章概率论的基本概念

0 引言（1）确定性现象（必然现象）：一定条件下一定发生或一定不发生；（2）随机现象（偶然现象）：在个别试验中结果呈现出不确定性，大量重复试验中结果具有统计规律性的现象，称为随即现象；（3）统计规律性：在大量重复试验或观察中所呈现出的固有规律性，即统计规律性；1. 随机试验（1）试验：大量观察、测量、科学观察（2）随机试验，E：三个特点：在相同条件下可以重复进行；每次试验的结果可能不止一个，事先明确试验的所有可能结果；试验之前不能确定哪一个结果会发生；具备三个特点的试验即随机试验；

2020-07-09 15:11:24 695

原创 seaborn.barplot柱状图详说

1、seaborn.barplot参数：seaborn.barplot(x=None, y=None, hue=None, data=None, order=None, hue_order=None, estimator=mean , ci=95, n_boot=1000, units=None, seed=None, orient=None, color=None, palette=None, saturation=0.75, errcolor='.26', errwidth=None, cap

2020-07-07 19:54:43 26856 1

原创 XGBoost

XGBoost (eXtreme Gradient Boosting）极限梯度提升算法1、安装#windowspip install xgboost #安装xgboost库pip install --upgrade xgboost #更新xgboost库#MACbrew install gcc@7pip3 install xgboost2、

2020-07-03 13:54:01 195

原创 python--内置函数

1、python内置函数：类型转换数学运算常用 int() max() all() range() help() float() min() any() set() format() long() sum() type() zip() str() abs() enumerate() bool() pow() ...

2020-06-28 18:58:48 226

原创 python tips

（1）jupyter notebook 中markdown显示图片：<img src="f1.png" alt="FAO" width="990"> # src 源图片路径（2）过滤warnings消息import warningswarnings.filterwarnings('ignore')

2020-06-01 13:01:02 212

原创数据预处理与特征工程

1、数据预处理与特征工程数据挖掘的5大流程：获取数据数据预处理数据预处理是从数据中检测、纠正或删除损坏、不准确或不适用于模型记录的过程。可能问题：数据类型不同，比如有的是文字，有的是数字，有的含时间序列，有的连续，有的间断；也可能，数据质量不行，有噪声，有异常，有缺失，数据出错，量纲不一，有重复，数据是偏态，数据量太大或太小。数据预处理的目的：让数据适应模型，匹配模型的需求。 3.特征工程特征工程：是将原始数据转换为更能代表预测模型的...

2020-05-17 11:09:46 996

原创决策树

1、决策树：Decision Tree 决策树是一种用于分类和回归的非参数有监督学习方法。sklearn.tree.export_graphviz(decision_tree, out_file=None, *, max_depth=None, feature_names=None, class_names=None, label='all', filled=False, leaves_parallel=False, impurity=True, node_ids=False, prop..

2020-05-15 09:54:35 314

原创线性回归

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Markdown编辑器你好！这是你第一次使用 Markdown编辑器所展示的欢迎页。如果你想学习如何使用Mar

2020-05-10 12:24:40 221

原创数据可视化库三--Pyecharts

1、

2020-05-06 09:48:42 220

原创数据可视化库二--Seaborn

1、

2020-05-06 09:47:49 495

原创数据可视化库一--matplotlib

1、import matplotlib.pyplot as pltFunction Description plt.figure(figsize,dpi,facecolor,edgecolor,frameon) Create a new figure： figsize（宽度，高度，单位：英寸），默认rcParams[figure.figsize]：[6.4,...

2020-05-05 13:11:45 254

原创 pandas数据处理库

1、DataFrame属性属性或方法描述 DataFrame.index DataFrame的index（行标签） DataFrame.columns DataFrame的列标签 DataFrame.dtypes 返回DataFrame的数据类型 DataFrame.select_dtypes(self[,include,exclude]) Re...

2020-05-04 18:53:22 274

原创 python之numpy模块

1、numpy数组属性numpy数组的维数称为秩（rank），秩即轴的数量，即数组维度，一维数组的秩为1，二维数组的秩为2，以此类推。在numpy中，每一个线性的数组称为是一个轴（axis），即维度（dimensions）。比如，二维数组相当于是两个一维数组，其中第一个一维数组中每个元素又是一个一维数组。所以一维数组就是 numpy中的轴（axis），第一个轴相当于是底层数组，第二个轴是底...

2020-05-04 11:57:45 584

原创 python内置函数

1、type()：如果只有第一个参数返回对象是类型，三个参数返回新的类型对象isinstance()与type()区别： type()不会认为子类是一种父类类型，不考虑继承关系； isinstance()会认为子类是一种父类类型，考虑继承关系；如果要判断两个类型是否相同使用isinstance()语法： type(object) type(name,b...

2020-05-04 11:27:46 174

原创 python实现组合优化

1、多个变量组合与单一目标，实现组合优化：import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsimport itertools%matplotlib inline# 生成结果字典，转化为DataFrameresult={ "gender":[...

2020-04-24 15:38:33 2702

原创 sublime修改tab键默认为四个空格

用Sublime里编写代码时，经常需要把TAB键转换成四个空格1、preferences-->settings2、将弹出的文本替换如下：{ "color_scheme": "Packages/Color Scheme - Default/Monokai.tmTheme", "font_size": 10, "ignored_packages": [ "V...

2020-04-22 16:47:12 887

原创线性相关评价方法、python.DataFrame.corr函数

1、pandas.DataFrame.corrDataFrame.corr(method: {'pearson', 'kendall', 'spearman'})相关方法：pearson：标准相关系数kendall：Kendall Tau相关系数spearman：Spearman秩相关系数解释：相关系数的取值范围为[-1,1]，属于0.8-1：极强相关；属于0.6-0.8：...

2020-04-20 20:01:11 3378 1

原创 matplotlib.pyplot

matplotlib.pyplot官网：https://matplotlib.org/3.2.1/api/_as_gen/matplotlib.pyplot.htmlmatplotlib.pyplot 是matplotlib的基于状态的接口，提供一种类似于MATLAB的绘图方式。pyplot主要用于交互式绘图、生成简单案例的编程绘图。import numpy as npimpor...

2020-04-20 10:06:41 572

原创 Hive常用日期函数

1、to_date：日期时间转日期函数select to_date('2020-04-10 10:00:00')输出：2020-04-102、from_unixtime：转换unix时间戳到当前时区的时间格式select from_unixtime(1578585840,’yyyyMMdd’);输出：202004103、unix_timestamp：获取当前unix时间戳...

2020-04-10 13:38:55 1873

原创朴素贝叶斯进行新闻分类

朴素贝叶斯# coding=utf8from sklearn.naive_bayes import MultinomialNBfrom sklearn.datasets import fetch_20newsgroupsfrom sklearn.model_selection import train_test_splitfrom sklearn.feature_extraction...

2020-04-03 10:12:03 459

原创贝叶斯拼写检查器

求解：argmaxc P(c|w) -> argmaxc P(w|c) P(c) / P(w)P(c), 文章中出现一个正确拼写词 c 的概率, 也就是说, 在英语文章中, c 出现的概率有多大 P(w|c), 在用户想键入 c 的情况下敲成 w 的概率. 因为这个是代表用户会以多大的概率把 c 敲错成 w argmaxc, 用来枚举所有可能的 c 并且选取概率最大的# 要是遇到我...

2020-04-02 21:12:01 341

原创 numpy科学计算库

原文参考：https://www.runoob.com/numpy/numpy-tutorial.htmlNumPy(Numerical Python) 是 Python 语言的一个扩展程序库，支持大量的维度数组与矩阵运算，此外也针对数组运算提供大量的数学函数库。NumPy 是一个运行速度非常快的数学库，主要用于数组计算，包含：一个强大的N维数组对象 ndarray 广播功能函数 ...

2020-04-02 10:51:01 330

原创 matplotlib绘图

matplotlib 最流行的Python底层绘图库，主要做数据可视化图表,名字取材于MATLAB，模仿MATLAB构建1、假设一天中每隔两个小时(range(2,26,2))的气温(℃)分别是[15,13,14.5,17,20,25,26,26,27,22,18,15]import matplotlib.pyplot as pltfrom matplotlib import font...

2020-04-01 15:10:49 362

原创机器学习之指标和评分：量化预测的质量

文章参考：https://scikit-learn.org/stable/modules/model_evaluation.html#clustering-metrics1、分类指标 Classification Metricssklearn.metrics 模块实现了一些损失、评分和实用函数衡量分类的性能。一些指标可能需要对正类、置信度值、或二进制决策值的概率估计。大部分实现都允许每个样...

2020-03-31 16:25:57 1706

转载 jieba

原文转载自：https://github.com/fxsjy/jiebajieba“结巴”中文分词：做最好的 Python 中文分词组件特点支持四种分词模式精确模式，试图将句子最精确的切开，适合文本分析；全模式，把句子中所有的可以成词的词语都扫描出来，速度非常快，但是不能解决歧义；搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。...

2020-03-29 22:01:34 806 1

原创机器学习--K近邻算法

1、定义：如果一个样本在特征空间中的k个最相似（即特征空间中最邻近）的样本中的大多数属于某一个类别，则该样本也属于这个类别。KNN算法最早是由Cover和Hart提出的一种分类算法。两个样本的距离通过欧式距离计算2、sklearn K-近邻算法APIsklearn.neighbors.KNeighborsClassifier(n_neighbors=5,algorithm='aut...

2020-03-29 16:41:22 311

原创机器学习之转换器和估计器

1、转换器2、估计器在sklearn中，估计器estimator是一个重要角色，分类器和回归器都属于estimator，是一类实现了算法的API。（1）用于分类的估计器：sklearn.neighbors k-近邻算法 sklearn.naive_bayes 贝叶斯 sklearn.linear_model.LogisticRegression 逻辑回归 sklea...

2020-03-29 15:51:21 400

原创 sklearn之datasets

sklearn之datasetssklearn.datasets模块提供了导入、在线下载及本地生成数据集的付费，通过dir或help命令查看：(1)datasets.load_<dataset_name>() : sklearn自带的小数据集datasets.load_iris() # 鸢尾花数据集datasets.load_boston() # 波士顿房价数据集d...

2020-03-29 15:34:35 562

原创 sklearn.model_selection中的train_test_split

train_test_split（）是sklearn.model_selection中的分离器函数，用户将数组或矩阵拆分为训练集和测试集，函数样式为：X_train,X_test,y_train,y_test=train_test_split(train_data,train_target,test_size,random_state,shuffle)参数解释：train_data :...

2020-03-29 13:36:15 865

原创 MySQL 5.5安装配置教程.

1、官网下载MySQL 5.5。下载地址：https://dev.mysql.com/downloads/mysql/5.5.html#downloads2、安装MySQL5.5注意：安装之前，请关闭杀毒软件。（1）打开下载的mysql-5.5.59-winx64.msi（2）点击Next（3）选中复选框，选择下一步。（4）选择自定义安装。选择安装类型，有“Typical（默认）”、“Comple...

2018-03-20 19:18:49 236821 31

java通过com口调用vissim

该文档为英文版，详细描述了java通过com口调用vissim的过程，文档中还给出eclipse及jar包下载地址。

2018-03-28

传智7天Hadoop培训视频

课程安排： 01) Linux基础操作;02) 搭建伪分布实验环境;03) 介绍HDFS体系结构及shell、java操作方式;04) 介绍MapReduce体系结构及各种算法;05) 介绍MapReduce体系结构及各种算法;06) 介绍Hadoop集群;07) 介绍zookeeper操作;08) 介绍HBase体系结构及基本操作;09) 介绍pig操作;10) 介绍Hive体系结构及基本操作;11) 介绍Sqoop操作;12) Flume操作;13) 论坛日志分析项目。

2018-01-25

算法第4版-谢路云 Java描述-PDF

《算法:第4版》作为算法领域经典的参考书，全面介绍了关于算法和数据结构的必备知识，并特别针对排序、搜索、图处理和字符串处理进行了论述。第4 版具体给出了每位程序员应知应会的50 个算法，提供了实际代码，而且这些java 代码实现采用了模块化的编程风格，读者可以方便地加以改造。配套网站提供了本书内容的摘要及更多的代码实现、测试数据、练习、教学课件等资源。

2018-01-18

机器学习实战电子书PDF

为什么我会力荐这本书？也许书中分类器都非常的简单，数学理论都非常的粗浅（为了看明白书中SVM分类器的训练过程，不得不去复习了二次凸优化解法，自己推导被作者略去的中间过程），算法测试也只在轻量级的数据集上完成。不过，大可不必像其他评论一样对贬低本书。聪明的读者会知道自己没有什么，自己需要学习什么。如果更加喜欢背后深奥的统计学理论和凸优化理论，可以去看《Machine Learning: A Probabilistic Perspective》，如果对自己的数学水平足够自信的话。

2018-01-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人