苏点儿-CSDN博客

原创 EM算法学习记录

本文主要内容来自于《统计学习方法》，主要分为以下部分：极大似然估计EM算法举例EM算法是用于含有隐变量的概率模型参数的极大似然估计，或极大后验概率估计，每次迭代由两步组成：E步，求期望；M步，求极大。所以，本文首先讲一下极大似然估计。极大似然估计，其实就是已知样本的观测结果，反推最有可能产生这个结果的参数值。对于式子P(x|θ），θ为参数，x为观测结果，如果已知参数，则...

2018-07-11 22:25:25 261

原创《Python数据分析与数据挖掘实战》第十五章学习——文本分析

本章主要实战目的是对京东平台上的热水器评论进行文本挖掘分析，包括分析其用户情感倾向、从评论文本中挖掘出该品牌热水器的优点与不足和提炼不同品牌热水器的卖点。本文主要包括以下几个部分：评论数据抽取评论预处理模型准备模型构建总结评论数据抽取评论数据抽取旨在选择某一个具体品牌进行评论分析，按照书中步骤选择抽取美的品牌的评论数据。代码如下：import panda

2018-01-17 13:21:32 6988 2

原创《Python数据分析与数据挖掘实战》第十四章学习——层次聚类

本章实战目的是，对用户的历史定位数据，采用数据挖掘技术对基站进行分群并对不同的商圈分群进行特征分析，以选取合适的商圈进行促销。所选用的方法是聚类。本文分为以下几个部分：离差标准化模型构建模型分析总结离差标准化由于各个属性之间的差异较大，为了消除数量级数据带来的影响，在进行聚类前，需要进行归一化处理。本文选择离差标准化。代码如下：#-*- coding: utf-8

2018-01-16 20:37:42 1300 1

原创《Python数据分析与数据挖掘实战》第十三章学习——预测

这一章内容是对财政收入的影响因素进行分析，并构建预测模型。本章数据比较清楚，几乎不用做清洗工作，主要工作都在模型构建上，中间涉及到的算法有Lasso算法的改进算法——Adaptive-Lasso、书中自己编写的灰色预测、神经网络。书中对财政地方收入、增值税、营业税、政府基金收入等都做了预测，但每一个预测所用模型和构建过程都类似，因此本文只选择财政地方收入作为例子进行整理。本文主要分为以

2018-01-16 16:30:42 4112 5

原创《Python数据分析与数据挖掘实战》第十二章学习——数据库连接+推荐

本章是对推荐算法进行python实战，也是第一次用到较大的数据集，利用python对数据库进行连接。本文主要分为以下几个部分：数据库连接逐块统计数据清洗数据转换网页分类模型构建总结数据库连接在python里，数据库连接主要需要SQLALchemy和PyMySQL，安装完所需的库就可以利用pandas直接read_sql()。在此之前，需要先将本章所需的数据集

2018-01-11 20:37:25 4874 4

原创《Python数据分析与数据挖掘实战》第十一章学习——ARMA模型

本章是对应用系统负载和磁盘容量进行分析和预测，涉及到的数据为时间序列数据，因此最后是用ARMA模型去拟合。本文主要包含以下部分：ARMA模型平稳性检验白噪声检验Python实战总结ARMA模型关于ARMA模型，具体可看时间序列中的ARMA模型和ARMA百度百科。本文摘录其主要部分：模型基本原理将预测指标随时间推移而形成的数据序列看作是一个随机序列，这组随机变

2018-01-11 17:54:42 9824 5

原创《Python数据分析与数据挖掘实战》第十章学习——数据清洗

本章的上机实验部分并没有侧重于模型，而是在于数据预处理，而文中也没有具体的代码。因此，本文主要对数据的预处理进行记录，主要包括用水事件划分、用水时长、总用水量、平均水流量等。主要有以下过程：读取数据划分用水事件添加事件开始时间和结束时间计算用水时长和平均水流量计算水流量波动总结读取数据读取数据的代码如下：import pandas as pdfrom panda

2018-01-11 15:29:48 1338 1

原创《Python数据分析与数据挖掘实战》第九章学习——支持向量机

第九章主要是对支持向量机（SVM）的应用，应用领域是水质评价，即利用支持向量机对图像数据进行训练，从而对水质类别进行分类。关于支持向量机的理论内容，支持向量机通俗导论（理解SVM的三层境界）这篇文章讲得非常详细，博主主要对书中的实战部分进行整理。首先，对数据进行导入，并构造特征和标签。代码如下：#-*- coding:utf-8 -*-import pandas as pd

2018-01-09 20:09:58 1847 1

原创《Python数据分析与挖掘实战》第八章学习-关联规则Apriori

《Python数据分析与挖掘实战》这本书其实已经在暑假结束的时候就已经基本上过了一遍，但是却一直没有坚持着记录。最近几天想着将之前的学习内容整理一遍，因此，再做记录。全文分为以下三个部分：Apriori算法Apriori的python实现总结Apriori算法首先先对Apriori算法的理论知识进行梳理。由于《Python数据分析与挖掘实战》主要针对实战，因此，对理论部分阐

2018-01-08 21:39:43 7622 2

原创 Kaggele项目——HousePrice特征工程记录

上一篇文章已经记录了如何填充缺失值，在这篇文章中，则主要记录特征工程的实践过程。特征工程构建过程中，主要对变量进行转换，将类别型变量重新编码，数值型变量也可利用函数等进行转换。本文主要分为以下几个部分： 1.类别型变量 2.新增变量 3.数值型变量 4.最终整合类别型变量对于类别型变量，主要是将变量进行重新编码，比如将Cond和Qual相关的好坏数据重新编码为（0,1,

2018-01-04 16:31:15 730

原创 Kaggle项目——House Prices缺失值填充

此文是对Kaggle上的新手入门项目——HousePrice的实践记录，因为觉得在这个项目中，缺失值的填充和特征工程尤为重要，因此，在此做一个记录。此博文主要对缺失值处理做一个记录。

2018-01-03 21:41:41 2555 2

原创《Python数据分析与挖掘实战》第七章学习——K-means聚类

本文是对《Python数据分析与挖掘实战》实战篇第二章——航空公司客户价值分析上机实验的记录。实验目的为：了解K-Means算法在客户价值分析实例中的应用。利用Pandas快速实现数据Z-score（标准差）标准化以及用Scikit-Learn的聚类库实现K-Means聚类。具体实验过程分为三部分：LRFMC标准化完成K-Means聚类画出聚类中心特征图1.

2017-07-19 17:00:34 4455 1

原创关于第一篇博客（第七章学习）的补充——LM神经网络模型

在之前做上机实验的时候，由于在Python（x,y）的环境下安装theano和keras一直出错，因此，略过了LM神经网络分类模型的训练。这几天还是不甘心，便又进行了尝试，尝试结果已经在第一篇博客中有所补充，在此另外再单出来显得更加清楚些。1.theano+keras安装由于网上大部分教程都是推荐Anaconda，博主一狠心便将电脑上所有Python相关的都卸载删除了，打算从头开始，按

2017-07-17 14:35:00 14045 5

原创《Python数据分析与挖掘实战》第六章学习拓展——偷漏税用户识别

本文是继上一篇文章中上机实验之后的拓展思考部分的练习记录。此拓展思考部分主要目标是依据附件所提供的汽车销售企业的部分经营指标，来评估汽车销售行业纳税人的偷漏税倾向，建立偷漏税行为识别模型。本次拓展思考练习分以下几个步骤进行：数据初步探索分析数据预处理模型选择与建立模型比较接下来将逐一进行记录。一数据初步探索分析在这一部分，将对附件中所提供的数据进行初步研究，查看

2017-07-01 23:51:01 4786 4

原创《Python数据分析与挖掘实战》第六章学习—CART决策树+神经网络（窃漏电用户识别）

本文是对《Python数据分析与挖掘实战》实战篇第一部分——电力窃漏电用户自动识别中上机实验的一个记录。实验分为两个部分：利用拉格朗日插值法进行缺失值的补充构建分类模型对窃漏电用户进行识别第一部分：利用拉格朗日插值法进行缺失值的补充**(1)拉格朗日插值法公式理解**本书中，缺失值处理所用的方法是拉格朗日插值法。因此，在应用之前，本人先去查阅了拉格朗日插值法的相关资料，对

2017-06-29 18:07:10 8284 5

sinat_33519513的博客