王小鹏的随笔-CSDN博客

原创 python机器学习（三）分类算法-朴素贝叶斯

同步更新在个人网站：http://www.wangpengcufe.com/machinelearning/pythonml-pythonml2/一、概率基础概率定义：概率定义为一件事情发生的可能性，例如，随机抛硬币，正面朝上的概率。联合概率：包含多个条件，且所有条件同时成立的概率，记作：????(????,????) 。条件概率：事件A在另外一个事件B已经发生条件下的发生概率，记作：????(????|????) ...

2020-02-19 09:38:52 514

原创 python 机器学习（二）分类算法-k近邻算法

一、什么是K近邻算法？定义:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。来源:KNN算法最早是由Cover和Hart提出的一种分类算法.计算距离公式:两个样本的距离可以通过如下公式计算，又叫欧式距离。比如说，a(a1,a2,a3),b(b1,b2,b3)二、K近邻算法的实现sk-learn近邻算法APIs...

2020-02-07 14:52:03 1976

原创 python 机器学习（一）机器学习概述与特征工程

同步更新在个人网站：http://www.wangpengcufe.com/machinelearning/pythonml-pythonml1/一、机器学习概述1.1、什么是机器学习？机器学习是从数据中自动分析获得规律（模型），并利用规律对未知数据进行预测1.2、为什么需要机器学习？解放生产力，智能客服，可以不知疲倦的24小时作业解决专业问题，ET医疗，帮助看病提供社会便利，例...

2020-01-21 17:17:15 486

原创案例（二）如何把python项目部署到linux服务器上

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-6ljXK6PO-1579487161655)(])一、案例背景用Python写了个脚本，需要部署到Linux环境的服务器上，由于服务器linux系统（centos,redhat等）自带的是python2，现在的python萌新都是从python3开始学习，所以需要给服务器配置一个python3环境，一番摸索过后，踩...

2020-01-20 10:26:48 4783

原创案例（一）利用RFM模型做用户价值分析

同步更新在个人网站：http://www.wangpengcufe.com/machinelearning/python-python1/一、案例背景在产品迭代过程中，通常需要根据用户的属性进行归类，也就是通过分析数据，对用户进行归类，以便于在推送及转化过程中获得更大的收益。本案例是基于某互联网公司的实际用户购票数据为研究对象，对用户购票的时间，购买的金额进行了采集，每个用户用手机号来区别...

2020-01-19 10:57:47 5826 3

原创机器学习（十六）特征变换-标签和索引的转化

一、原理在机器学习处理过程中,为了方便相关算法的实现,经常需要把标签数据(一般是字符串)转化成整数索引,或是在计算结束后将整数索引还原为相应的标签.Spark ML 包中提供了几个相关的转换器:StringIndexer,IndexToString,OneHotEncoder,VectorIndexer,他们提供了十分方便的特征转换功能,这些转换器都位于org.apache.spark.m...

2020-01-15 10:18:22 1828

原创机器学习（十五）特征选择-卡方选择器

一、公式卡方检验的基本公式，也就是χ2的计算公式，即观察值和理论值之间的偏差其中：A 为观察值，E为理论值，k为观察值的个数，最后一个式子实际上就是具体计算的方法了 n 为总的频数，p为理论频率，那么n*p自然就是理论频数（理论值）二、相关概念卡方分布：可以看出当观察值和理论值十分接近的时候，也就是我们做的假设是正确的时候，χ2的值就越趋近于0，也就是说我们计算的偏差越小，那么假设值就...

2020-01-14 13:46:34 1378

原创机器学习（十四）特征抽取–Word2Vec

同步更新在个人网站：http://www.wangpengcufe.com/machinelearning/ml-ml14/一、概念Word2vec是一个Estimator，它采用一系列代表文档的词语来训练word2vecmodel。该模型将每个词语映射到一个固定大小的向量。word2vecmodel使用文档中每个词语的平均数来将文档转换为向量，然后这个向量可以作为预测的特征，来计算文档相似...

2020-01-13 09:51:06 931

原创机器学习（十三）特征抽取–CountVectorizer

一、概念CountVectorizer旨在通过计数来将一个文档转换为向量。当不存在先验字典时，Countvectorizer作为Estimator提取词汇进行训练，并生成一个CountVectorizerModel用于存储相应的词汇向量空间。该模型产生文档关于词语的稀疏表示，其表示可以传递给其他算法，例如LDA（ Latent Dirichlet Allocation 隐含狄利克雷分布）。在...

2020-01-08 19:40:12 760

原创机器学习（十二）特征提取 TF-IDF

一、概念**“词频－逆向文件频率”（TF-IDF）**是一种在文本挖掘中广泛使用的特征向量化方法，它可以体现一个文档中词语在语料库中的重要程度。词语由t表示，文档由d表示，语料库由D表示。词频TF(t,d)是词语t在文档d中出现的次数。文件频率DF(t,D)是包含词语的文档的个数。如果我们只使用词频来衡量重要性，很容易过度强调在文档中经常出现，却没有太多实际信息的词语，比如“a”，“the”...

2020-01-02 17:43:59 1512

原创机器学习（十一）机器学习工作流

一、概念一个典型的机器学习过程从数据收集开始，要经历多个步骤，才能得到需要的输出。这非常类似于流水线式工作，即通常会包含源数据ETL（抽取、转化、加载），数据预处理，指标提取，模型训练与交叉验证，新数据预测等步骤。MLlib标准化了用于机器学习算法的API，从而使将多种算法组合到单个管道或工作流程中变得更加容易。本节介绍了Pipelines API引入的关键概念，其中PipeLine（管道...

2019-12-20 15:56:36 724

原创机器学习（十）聚类

一、概念1.1、定义按照某一个特定的标准（比如距离），把一个数据集分割成不同的类或簇，使得同一个簇内的数据对象的相似性尽可能大，同时不再同一个簇内的数据对象的差异性也尽可能的大。聚类属于典型的无监督学习（Unsupervised Learning）方法。与监督学习（如分类器）相比，无监督学习的训练集没有人为标注的结果。在非监督式学习中，数据并不被特别标识，学习模型是为了推断出数据的一些内...

2019-12-19 18:43:43 773

原创机器学习（九）协同过滤算法

同步更新在个人网站：http://www.wangpengcufe.com/machinelearning/ml-ml9/一、概念协同过滤算法主要分为基于用户的协同过滤算法和基于项目的协同过滤算法。1.1、以用户为基础（User-based）的协同过滤用相似统计的方法得到具有相似爱好或者兴趣的相邻用户，所以称之为以用户为基础（User-based）的协同过滤或基于邻居的协同过滤(Nei...

2019-12-17 20:27:04 1746

原创机器学习（八）主成分分析（PCA）

同步更新在个人网站：http://www.wangpengcufe.com/machinelearning/ml-ml8/一、概念主成分分析（Principal Component Analysis）是指将多个变量通过线性变换以选出较少数重要变量的一种多元统计分析方法，又称为主成分分析。在实际应用场合中，为了全面分析问题，往往提出很多与此有关的变量（或因素），因为每个变量都在不同程度上反映这...

2019-12-12 20:22:43 389

原创机器学习（七）奇异值分解-SVD

同步更新在个人网站：http://www.wangpengcufe.com/machinelearning/ml-ml7/降维（Dimensionality Reduction）是机器学习中的一种重要的特征处理手段，它可以减少计算过程中考虑到的随机变量（即特征）的个数，其被广泛应用于各种机器学习问题中，用于消除噪声、对抗数据稀疏问题。它在尽可能维持原始数据的内在结构的前提下，得到一组描述原数...

2019-11-26 18:24:56 805

原创机器学习 (六) 决策树

同步更新在个人网站：http://www.wangpengcufe.com/machinelearning/ml-ml6/一、概念决策树及其集合是分类和回归的机器学习任务的流行方法。决策树被广泛使用，因为它们易于解释，处理分类特征，扩展到多类分类设置，不需要特征缩放，并且能够捕获非线性和特征交互。诸如随机森林和增强的树集合算法是分类和回归任务的最佳表现者。决策树（decision tr...

2019-11-25 14:30:44 653

原创机器学习（五）逻辑斯蒂回归

一、概念逻辑斯蒂回归（logistic regression）是统计学习中的经典分类方法，属于对数线性模型。logistic回归的因变量可以是二分类的，也可以是多分类的。logistic回归的因变量可以是二分非线性差分方程类的，也可以是多分类的，但是二分类的更为常用，也更加容易解释。所以实际中最为常用的就是二分类的logistic回归。二、logistic分布设X是连续随机变量，X服从逻辑...

2019-11-21 12:25:45 641

原创机器学习（四）分类

同步更新在个人网站：http://www.wangpengcufe.com/machinelearning/ml-ml4/简书：https://www.jianshu.com/p/59274d7beb26分类分类旨在将项目分为不同类别。最常见的分类类型是二元分类，其中有两类，通常分别为正数和负数。如果有两个以上的类别，则称为多类分类。 spark.mllib支持两种线性分类方法：线性支...

2019-11-17 23:22:02 452

原创机器学习（三）基本的统计工具

给定一个数据集，数据分析师一般会先观察一下数据集的基本情况，称之为汇总统计或者概要性统计。一般的概要性统计用于概括一系列观测值，包括位置或集中趋势（比如算术平均值、中位数、众数和四分位均值），展型（比如四分位间距、绝对偏差和绝对距离偏差、各阶矩等），统计离差，分布的形状，依赖性等。除此之外，spark.mllib库也提供了一些其他的基本的统计分析工具，包括相关性、分层抽样、假设检验，随机数生成等...

2019-09-14 01:31:53 547

原创机器学习（二）基本数据类型

原文链接: http://www.wangpengcufe.com/machinelearning/ml2/MLlib支持存储在单个机器上的局部向量和矩阵，以及由一个或多个RDD支持的分布式矩阵。局部向量和局部矩阵是用作公共接口的简单数据模型。底层线性代数操作由Breeze提供。在监督学习中使用的训练示例在MLlib中称为“标记点”。一、本地向量局部向量具有整数类型和基于0的索引和双...

2019-09-09 15:47:59 999

原创机器学习（一） Spark MLlib介绍

原文链接：http://www.wangpengcufe.com/machinelearning/ml1/一、什么是机器学习机器学习是一门多学科交叉专业，涵盖概率论知识，统计学知识，近似理论知识和复杂算法知识，使用计算机作为工具并致力于真实实时的模拟人类学习方式，并将现有内容进行知识结构划分来有效提高学习效率。机器学习有下面几种定义：机器学习是一门人工智能的科学,该领域的主要研究对象...

2019-09-09 15:26:45 1063