EM算法学习记录

本文主要内容来自于《统计学习方法》,主要分为以下部分: 极大似然估计 EM算法 举例 EM算法是用于含有隐变量的概率模型参数的极大似然估计,或极大后验概率估计,每次迭代由两步组成:E步,求期望;M步,求极大。 所以,本文首先讲一下极大似然估计。 极大似然估计,其实就是已知样本的观测结果...

2018-07-11 22:25:25

阅读数 68

评论数 0

《Python数据分析与数据挖掘实战》第十五章学习——文本分析

本章主要实战目的是对京东平台上的热水器评论进行文本挖掘分析,包括分析其用户情感倾向、从评论文本中挖掘出该品牌热水器的优点与不足和提炼不同品牌热水器的卖点。 本文主要包括以下几个部分: 评论数据抽取 评论预处理 模型准备 模型构建 总结 评论数据抽取 评论数据抽取旨在选择某一个具体品...

2018-01-17 13:21:32

阅读数 1948

评论数 0

《Python数据分析与数据挖掘实战》第十四章学习——层次聚类

本章实战目的是,对用户的历史定位数据,采用数据挖掘技术对基站进行分群并对不同的商圈分群进行特征分析,以选取合适的商圈进行促销。所选用的方法是聚类。 本文分为以下几个部分: 离差标准化 模型构建 模型分析 总结 离差标准化 由于各个属性之间的差异较大,为了消除数量级数据带来的影响,在进行...

2018-01-16 20:37:42

阅读数 388

评论数 1

《Python数据分析与数据挖掘实战》第十三章学习——预测

这一章内容是对财政收入的影响因素进行分析,并构建预测模型。 本章数据比较清楚,几乎不用做清洗工作,主要工作都在模型构建上,中间涉及到的算法有Lasso算法的改进算法——Adaptive-Lasso、书中自己编写的灰色预测、神经网络。 书中对财政地方收入、增值税、营业税、政府基金收入等都做了预测...

2018-01-16 16:30:42

阅读数 1271

评论数 1

《Python数据分析与数据挖掘实战》第十二章学习——数据库连接+推荐

本章是对推荐算法进行python实战,也是第一次用到较大的数据集,利用python对数据库进行连接。 本文主要分为以下几个部分: 数据库连接 逐块统计 数据清洗 数据转换 网页分类 模型构建 总结 数据库连接 在python里,数据库连接主要需要SQLALchemy和PyMySQL...

2018-01-11 20:37:25

阅读数 2480

评论数 3

《Python数据分析与数据挖掘实战》第十一章学习——ARMA模型

本章是对应用系统负载和磁盘容量进行分析和预测,涉及到的数据为时间序列数据,因此最后是用ARMA模型去拟合。 本文主要包含以下部分: ARMA模型 平稳性检验 白噪声检验 Python实战 总结 ARMA模型 关于ARMA模型,具体可看时间序列中的ARMA模型和ARMA百度百科。 本文...

2018-01-11 17:54:42

阅读数 3911

评论数 0

《Python数据分析与数据挖掘实战》第十章学习——数据清洗

本章的上机实验部分并没有侧重于模型,而是在于数据预处理,而文中也没有具体的代码。因此,本文主要对数据的预处理进行记录,主要包括用水事件划分、用水时长、总用水量、平均水流量等。 主要有以下过程: 读取数据 划分用水事件 添加事件开始时间和结束时间 计算用水时长和平均水流量 计算水流量波动 总结...

2018-01-11 15:29:48

阅读数 373

评论数 0

《Python数据分析与数据挖掘实战》第九章学习——支持向量机

第九章主要是对支持向量机(SVM)的应用,应用领域是水质评价,即利用支持向量机对图像数据进行训练,从而对水质类别进行分类。 关于支持向量机的理论内容,支持向量机通俗导论(理解SVM的三层境界)这篇文章讲得非常详细,博主主要对书中的实战部分进行整理。 首先,对数据进行导入,并构造特征和标签。 ...

2018-01-09 20:09:58

阅读数 764

评论数 1

《Python数据分析与挖掘实战》第八章学习-关联规则Apriori

《Python数据分析与挖掘实战》这本书其实已经在暑假结束的时候就已经基本上过了一遍,但是却一直没有坚持着记录。最近几天想着将之前的学习内容整理一遍,因此,再做记录。 全文分为以下三个部分: Apriori算法 Apriori的python实现 总结 Apriori算法 首先先对Apr...

2018-01-08 21:39:43

阅读数 3950

评论数 1

Kaggele项目——HousePrice特征工程记录

上一篇文章已经记录了如何填充缺失值,在这篇文章中,则主要记录特征工程的实践过程。 特征工程构建过程中,主要对变量进行转换,将类别型变量重新编码,数值型变量也可利用函数等进行转换。 本文主要分为以下几个部分: 1.类别型变量 2.新增变量 3.数值型变量 4.最终整合 类别型变量 ...

2018-01-04 16:31:15

阅读数 376

评论数 0

Kaggle项目——House Prices缺失值填充

此文是对Kaggle上的新手入门项目——HousePrice的实践记录,因为觉得在这个项目中,缺失值的填充和特征工程尤为重要,因此,在此做一个记录。此博文主要对缺失值处理做一个记录。

2018-01-03 21:41:41

阅读数 1300

评论数 0

《Python数据分析与挖掘实战》第七章学习——K-means聚类

本文是对《Python数据分析与挖掘实战》实战篇第二章——航空公司客户价值分析上机实验的记录。 实验目的为: 了解K-Means算法在客户价值分析实例中的应用。 利用Pandas快速实现数据Z-score(标准差)标准化以及用Scikit-Learn的聚类库实现K-Means聚类。 具体...

2017-07-19 17:00:34

阅读数 730

评论数 0

关于第一篇博客(第七章学习)的补充——LM神经网络模型

在之前做上机实验的时候,由于在Python(x,y)的环境下安装theano和keras一直出错,因此,略过了LM神经网络分类模型的训练。这几天还是不甘心,便又进行了尝试,尝试结果已经在第一篇博客中有所补充,在此另外再单出来显得更加清楚些。 1.theano+keras安装 由于网上大部分...

2017-07-17 14:35:00

阅读数 6340

评论数 4

《Python数据分析与挖掘实战》第六章学习拓展——偷漏税用户识别

本文是继上一篇文章中上机实验之后的拓展思考部分的练习记录。此拓展思考部分主要目标是依据附件所提供的汽车销售企业的部分经营指标,来评估汽车销售行业纳税人的偷漏税倾向,建立偷漏税行为识别模型。 本次拓展思考练习分以下几个步骤进行: 数据初步探索分析 数据预处理 模型选择与建立 模型比较 接下...

2017-07-01 23:51:01

阅读数 1855

评论数 3

《Python数据分析与挖掘实战》第六章学习—CART决策树+神经网络(窃漏电用户识别)

本文是对《Python数据分析与挖掘实战》实战篇第一部分——电力窃漏电用户自动识别中上机实验的一个记录。 实验分为两个部分: 利用拉格朗日插值法进行缺失值的补充 构建分类模型对窃漏电用户进行识别 第一部分:利用拉格朗日插值法进行缺失值的补充 **(1)拉格朗日插值法公式理解** 本书...

2017-06-29 18:07:10

阅读数 3403

评论数 4

提示
确定要删除当前文章?
取消 删除
关闭
关闭