- 博客(15)
- 收藏
- 关注
原创 评价模型中熵值法Excel和Python实现
因为项目需要,要用分数的形式评价用户对某个产品的喜好程度,其中的指标权重确定用熵值法计算。在网上搜集了些资料,再自己捣腾了一下分别用Excel和Python的方法来实现。目录一、熵值法介绍二、计算步骤1.数据标准化2.计算第j项指标下第i个记录所占比重3.计算第j项指标的熵值4.计算第j项指标的差异系数5.计算第j项指标的权重三、Python实现四、Excel实现1.数据标准化2.计算第j项指标下第i个记录所占比重3.计算第j项指标的熵值4.计算第j项指标的权重5.重新评分一、熵值法介绍 熵值法
2020-10-19 15:24:21 6988 10
原创 【数据分析】用RFM模型分析用户
RFM模型RFM模型根据客户活跃程度和交易金额的贡献,进行客户价值细分的一种方法。R(Recency)——最近一次交易时间间隔。基于最近一次交易日期计算的得分,距离当前日期越近,得分越高。如5分制。反映客户交易活跃度。F(Frequency)——客户在最近一段时间内交易次数。基于交易频率计算的得分,交易频率越高,得分越高。如5分制。反映客户交易活跃度。M(Monetray)——客户最近...
2020-09-16 10:58:36 1123
原创 【数据预处理】Python数据预处理常见操作
文章总结了拿到原始数据后,做数据预处理的常见操作。后续会根据总结不断更新。目录一、数据查看二、数据转换三、数据清洗1.异常值2.重复值3.缺失值四、数据获取五、数据合并1.join,基于index连接DataFrame的列2.merge,基于column连接,类似SQL的join3.concat,合并相同的Excel或给DataFrame添加行或列时使用六、其他操作1.数据分组聚合2.列表生...
2020-04-30 22:26:44 4462 1
原创 【数据分析框架】AARRR模型的数据指标体系
AARRR模型是运营里面一个非常有名的用户分析模型,也是一个典型的漏斗模型,这个模型也可以作为数据分析的框架,这里总结了模型中会用到的数据指标。
2020-04-18 16:32:09 2206
原创 【Python数据分析】文本情感分析——电影评论分析(二)
接上一篇《【Python数据分析】文本情感分析——电影评论分析(一)》。目录文本向量化词袋模型文本向量化 文本要进行模型训练,进而判断文本是积极的还是消极,而此时的文本依然是字符串形式,机器学习只能进行数值类型数据的计算,不能完成非数值类型的计算。所以需要把文本转化成数值类型,才能让模型训练学习,而把文本转化为数值的形式就是文本向量化。词袋模型...
2020-04-12 20:04:05 9126 1
原创 【统计学】推断统计分析——根据样本统计量推断总体参数
推断统计研究的是如何根据样本数据去推测总体特征的方法。进行推断的原因是在实际生产中,获取总体数据通常比较困难,甚至不可能完成,因此需要对总体进行抽样,通过样本统计量去估计总体参数。
2020-04-06 22:13:22 12743
原创 【数据分析】数据分析在电商精准营销及效果评估中的应用
本文总结了数据分析在电商精准营销中的常用方法,同时总结了营销活动效果评估的常用指标,提供了分析思路。
2020-04-01 16:04:42 3352
原创 【Python数据分析】文本情感分析——电影评论分析(一)
情感分析:文本分类的一种,从一段话分析出褒义还是贬义。使用场景,商品、服务客户的反馈,分析顾客评价。适用于一般文本分类:垃圾邮件分类、新闻分类。
2020-03-31 22:00:21 23145 16
原创 【MySQL学习笔记】什么情况下会出现笛卡尔积
在学习MySQL的表连接时,笛卡尔积是必须知道的一个概念。在没有任何限制条件的情况下,两表连接必然会形成笛卡尔积。笛卡尔积 如果表1有m行a列,表2有n行b列,两表无条件连接时会将两表里所有行两两组合到一起,所形成的表就有m*n行,a+b列。如果表1或表2的记录数很多时,连接后会形成一张非常大的表,在这种大表里查询效率特别低,所以在数据库查询时,应尽量避免笛卡尔积的出现。 在Hive...
2020-03-25 17:01:18 9133 2
原创 【Hive学习笔记】Hive与传统关系型数据库的区别
1、查询语言:Hive用的是HQL,关系型数据库用的是SQL。2、数据存储位置:Hive把数据存储在HDFS中。关系型数据库将数据存在块设备或本地文件系统中。3、数据格式:Hive没有定义专门的数据格式,可由用户可以自定义,在自定义的时候需要指定三个属性:列分隔符,行分隔符,以及读取文件数据的方法。关系型数据库在建立时会指定或默认有存储引擎,存储引擎定义了自己的数据格式,所有数据都会按照一...
2020-03-21 23:12:51 1078
原创 【数据分析】2019北京积分落户数据分析
一文了解2019年北京落户形式如何,怎样的年龄、怎样的积分值、什么样的工作单位落户成功率较高,希望对想要通过积分落户的朋友形成指导,大概几年能达到积分落户要求,也希望对准备在2020年申请积分落户的朋友有些许帮助。
2020-03-18 15:03:03 7057
原创 Anaconda 安装jieba、wordcloud失败解决办法
成功解决Anaconda 安装jieba、wordcloud提示Traceback(most recent call last):...... 超时等问题。
2020-03-12 22:04:48 484
原创 【Python数据可视化】用Matplotlib绘制常见统计图,中文显示字体任意设置
本文主要总结了Matplotlib绘图中的一些常用方法,把用Matplotlib绘制常见统计图做一个汇总,解决了中文字符无法正常显示问题,并可以根据需要一张图显示不同字体。
2020-03-10 21:11:12 5120 1
原创 【机器学习算法】手动Python实现KNN分类算法,并用iris数据集检验模型效果
KNN原理很简单,就是“少数服从多数”,为了更好的理解KNN实现原理,给电影分类这个简单的例子,自己手写Python代码实现KNN,并用著名的iris数据集验证模型。
2020-03-09 18:04:05 2525
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人