自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 《Python 数据分析与挖掘实战》第十五章 电商产品评论数据LDA主题模型、文本挖掘

一、分析方法与过程本次针对京东商城上的“美的”热水器的文本评论数据进行建模分析。本文进行基本的预处理、分词等操作后建立LDA主题模型,实现对文本评论数据的倾向性判断及信息挖掘分析。(1)利用爬虫进行数据采集(由于最近较忙,爬虫代码等空了再附上,暂且先用书中提供的数据进行建模),原始文本评论数据为将...

2018-07-03 10:48:31

阅读数 3580

评论数 3

原创 Python数据分析与挖掘实战第三章笔记之相关性分析

#相关性分析:分析连续变量之间线性相关程度的强弱,并用适当的统计指标表示出来 # 直接绘制散点图 # 绘制散点图矩阵:当同事考虑多个变量间的相关关系时,可以利用散点图矩阵同时绘制各变量间的散点图。 # 计算相关系数:二元变量的相关性分析中常用pearson相关系数,spearman秩相关系数和判定...

2018-05-30 21:11:29

阅读数 207

评论数 0

原创 Python数据分析与挖掘实战第三章笔记之贡献度分析代码

# 贡献度分析:又称帕累托分析,原理是帕累托法则,又称20/80定律。80%的利润常常来自于20%的最畅销产品,剩下的80%的产品只产生了20%的利润。 # 帕累托图代码 from __future__ import print_function import pandas as pd dish_...

2018-05-30 21:10:34

阅读数 434

评论数 0

原创 Python数据分析与挖掘实战第三章笔记之数据特征分析

#3.2数据特征分析(分布分析,对比分析,统计量分析,周期性分析,贡献度分析,相关性分析 ) #分布分析:能解释数据的分布特征和分布类型。定量数据:绘制频率分布表,频率分布直方图,茎叶图。定性数据:绘制饼图,条形图。 # 对比分析:是指把两个相互联系的指标进行比较,从数量上展示和说明研究对象规模的...

2018-05-30 21:09:52

阅读数 402

评论数 0

原创 Python数据分析与挖掘实战第三章笔记之数据质量分析

# 3.1数据质量分析 # 数据质量分析主要任务是检查原始数据中是否存在脏数据(缺失值,异常值,不一致的值,重复数据及含有特殊符号的数据) # 缺失值:使用简单的统计分析可以得到含有缺失值的属性的个数,以及每个属性的未缺失数,缺失数与缺失率等。对于缺失值处理分为删除存在缺失值的记录,对可能的值进行...

2018-05-30 21:09:09

阅读数 393

评论数 0

原创 Python数据分析与挖掘实战第四章笔记之数据规约、主成分分析

# 4.4数据规约:降低无效、错误数据对建模的影响,提高建模的准确性;少量且具有代表性的数据将大幅缩减数据挖掘所需时间;降低存储数据的成本。 # 属性规约:通过属性合并来创建新属性维数,或者直接通过删除不相关的属性来减少数据维数。 # 常见方法: # 1、合并属性:将一些旧属性合为新属性 # 2、...

2018-05-30 21:07:45

阅读数 520

评论数 3

原创 Python数据分析与挖掘实战第四章笔记之属性离散化

# 在一些分类算法中,要求数据是分类属性形式,这样,常常需要将连续属性变换成分类属性,即连续属性离散化 # 1、离散化过程:在数据的取值范围内设定若干个离散的划分点,将取值范围划分为一些离散化的区间,最后用不同的符号或者整数值代表落在每个子区间中的数据值。 # 2、离散化方法: # (1)等宽法:...

2018-05-30 21:05:45

阅读数 275

评论数 0

原创 Python数据分析与挖掘实战第四章笔记之数据预处理

# 数据预处理:包括数据的清洗,数据集成,数据变化和数据规约。 # 数据清洗主要是删除原始数据集中的无关数,重复数据,平滑噪声数据,筛选掉与挖掘主题无关的数据,处理缺失值,异常值等 # 缺失值的处理:删除记录,数据插补和不处理三种方法。 # 数据插补方法:1、均值、中位数、众数插补;2、使用固定值...

2018-05-30 21:03:42

阅读数 381

评论数 0

原创 Python数据分析与挖掘实战第五章笔记之离群点检测

#离群点检测:发现与大部分其他对象显著不同的对象 # 离群点成因:数据来源于不同的类,自然变异,数据测量和收集误差 # 离群点类型: # 1、全局离群点和局部离群点:从整体来看某些对象没有离群特征,但是从局部来看,却显示了一定的离群性。 # 2、数值型离群点和分类型离群点 # 3、一维离群点和多维...

2018-05-29 18:47:19

阅读数 2230

评论数 0

原创 Python数据分析与挖掘实战第五章笔记之时间序列分析

#时间序列分析:给定一个已被观测了的时间序列,预测该序列的未来值 # 时间序列算法: # 1、平滑法:常用语趋势分析和预测,利用修匀技术,虚弱短期随机波动对序列的影响,使序列平滑化,根据平滑技术的不同,分为移动平均法和指数平滑法 # 2、趋势拟合法:把时间作为自变量,相应的序列观察值作为因变量,建...

2018-05-29 18:46:43

阅读数 361

评论数 0

原创 Python数据分析与挖掘实战第五章笔记之关联规则

关联规则:也称购物篮分析。 #常用关联规则算法: # 1、Apriori:关联规则最常用的挖掘频繁项集的算法,核心思想是通过连接产生选项及其支持度然后通过剪枝生成频繁项集。 # 2、FP-Tree:针对Apriori固有的多次扫描事务数据集的缺项,提出不产生候选频繁项集的方法 # 3、Eclat:...

2018-05-29 18:45:55

阅读数 194

评论数 0

原创 Python数据分析与挖掘实战第五章笔记之聚类分析

#聚类分析: # 聚类分析是在没有给定划分类别的情况下,根据数据相似度进行样本分组的一种方法。可以建立在无类标记的数据上,是一种非监督的学习算法。划分原则是组内距离最小化,组间距离最大化。 # 常用的聚类方法: # 1、划分方法:K-Means(K均值),K-Medoids(K-中心点),Clar...

2018-05-29 18:44:59

阅读数 401

评论数 0

原创 Python数据分析与挖掘实战第五章笔记之人工神经网络

#人工神经网络是模拟生物神经网络进行信息处理的一种数学模型。人工神经元是人工神经网络操作的基本信息处理单位。 # 人工神经网络的学习也称为训练,指的是神经网络在收到外部环境的刺激下调整神经网络的参数,使神经网络以一种新的方式对外部环境做出反应的一个过程。 # 在分类与预测中,人工神经网络主要使用指...

2018-05-29 18:44:17

阅读数 592

评论数 0

原创 Python数据分析与挖掘实战第五章笔记之决策树

#决策树算法分类: # 1、ID3算法:其核心是在决策树的各级节点上,使用信息增益方法作为属性的选择标准,来帮助确定生成每个节点时所应采用的合适属性 # 2、C4.5算法:是使用信息增益率来选择节点属性,ID3只适用于离散的属性描述,而C4.5既能够处理离散的描述属性,也可以处理连续的描述属性 #...

2018-05-29 18:43:27

阅读数 626

评论数 0

原创 Python数据分析与挖掘实战第五章笔记之回归分析

#分类与预测: # 分类:是一个构造分类模型,输入样本的属性值,输出对应的类别,将每个样本映射到先定义好的类别;分类模型建立在已有类标记的数据集上,模型在已有样本上的准确率可以方便计算。 # 分类两步:第一步是学习步,通过归纳分析训练样本集哎加你分诶模型得到分类规则;第二步是分类不,先用一直的测试...

2018-05-29 18:42:32

阅读数 223

评论数 0

原创 python数据分析与挖掘实战第六章拓展思考题

拓展思考题是汽车是否偷漏税识别问题。查看数据后进行以下分析1、数据探索对数据进行简单分析,看销售模式和销售类别对偷漏税是否有影响import pandas as pd import matplotlib.pyplot as plt plt.rcParams['font.sans-...

2018-05-29 18:37:11

阅读数 561

评论数 0

提示
确定要删除当前文章?
取消 删除