数据挖掘
文章平均质量分 88
数据挖掘
AndersonHuang
stay hungry, stay foolish...
展开
-
经典决策树算法(ID3、C4.5、CART)原理以及Python实现
决策树(Decision Tree),是每个分支都通过条件判断进行划分的树,是解决分类和回归问题的一种机器学习算法,其核心是一个贪心算法,它采用自顶向下的递归方法构建决策树。 决策树模型是一种对实例进行分类的树,由节点(node,由圆框表示)和有向边(directed edge,由方框表示)组成,其中节点分为内部节点(internal node)和叶子节点(leaf node),内部节点表示一个属性或特征,叶子节点表示一个类。 决策树可以被看作是一个if-then规则的集合:由决策树的根节点到叶子节点的每原创 2024-02-04 18:42:24 · 1818 阅读 · 0 评论 -
K近邻(KNN)算法原理及其Python实现
k近邻算法在1968年由Cover和Hart提出,它非常简单、直观:给定一个训练数据集,对新的输入实例,在训练数据集中找到与该输入实例最邻近的k个实例,这k个实例的多数属于某个类别,就把输入实例分为这个类别。原创 2023-12-22 16:01:15 · 803 阅读 · 0 评论 -
K-D树算法原理以及python实现
K-D树,英文全称为K-dimention tree,是一种存储k维空间中数据的平衡二叉树型结构,主要用于范围搜索和最近邻搜索。K-D树实质是一种空间划分树,其每个节点对应一个k维的点,每个非叶节点相当于一个分割超平面,将其所在区域划分为两个子区域。原创 2023-12-19 11:50:29 · 1061 阅读 · 0 评论 -
python中异常值的检测和处理
通常,咱们做数据挖掘的时候经常免不了会遇到异常值检测或者异常值处理等步骤,那么什么是异常值呢?如何检测数据中是否存在异常值?如何处理数据中的异常值?本文专门探究一下这些问题。,是指那些在数据集中存在的不合理的值,需要注意的是,不合理的值是偏离正常范围的值,不是错误值。:数据集中的异常值可能是由于传感器故障、人工录入错误或异常事件导致。原创 2023-12-08 18:36:55 · 5042 阅读 · 0 评论 -
数据分析方法——A/B测试
AB测试(A/B测试)是一种实验设计方法,用于比较两个或多个版本的产品或策略,并确定哪个版本更有效或更受欢迎。AB测试通常在市场营销、用户体验优化和产品开发等领域广泛应用。原创 2023-11-13 15:49:01 · 262 阅读 · 0 评论 -
高效的空间索引算法——Geohash 和 Google S2
GeoHash被广泛的应用到空间检索方面。GeoHash所做的事就是把一个坐标点映射到一个字符串上,每一个字符串代表的就是一个以经纬度划分的矩形区域。Geohash 属于空间填充曲线中的 Z 阶曲线(Z-order curve)的实际应用。谷歌的 S2 算法就是基于希尔伯特曲线的。S2其实是来自几何数学中的一个数学符号 S2,它表示的是单位球。S2 这个库其实是被设计用来解决球面上各种几何问题的。原创 2023-11-10 16:51:35 · 2836 阅读 · 0 评论 -
python空间数据分析的参考文章
工作上有时候需要处理空间数据,网上查到的比较好的参考文章,收藏起来再找也麻烦,于是专门在这里列出一些链接原创 2023-11-07 16:27:17 · 40 阅读 · 0 评论 -
python基于geopandas的空间数据分析之二:空间计算
在实际的空间数据分析过程中,数据可视化只是对最终分析结果的发布与展示,在此之前,根据实际任务的不同,需要衔接很多较为进阶的空间操作,本文就将对geopandas中的部分空间计算进行介绍。原创 2023-11-07 11:29:22 · 846 阅读 · 0 评论 -
python计算地址相似度以及抽取省市区信息的库
平时工作上会经常处理地理数据上关于地址地名的相似度计算,或者从地址中抽取省市区信息的内容,所以记录一下一些好用的python库。原创 2023-11-03 16:07:51 · 864 阅读 · 0 评论 -
数据分析模型之一:用户模型
先用3句话来说明为什么用户模型是基础的分析模型,重要到要第一个来分析:因为如果你不知道自己的用户是谁,就不知道该提供什么服务;不清楚用户与你“交往”到哪个阶段了,就不可能知道优先提供什么样的服务;营销战略无法聚焦,服务没有系统性和持续性,因此,我们先从定义开始,科普下什么是用户模型以及传统方式如何构建用户模型。用户模型(Persona)是Alan Cooper在《About Face:交互设计精髓》一书中提到的研究用户的系统化方法。转载 2023-11-02 16:46:45 · 131 阅读 · 0 评论 -
数据分析模型之七:全行为路径分析模型
诸葛君说:用户在产品中的行为其实是个黑盒子,全行为路径是用全局视野看用户的行为轨迹,很多时候你会有意想不到的收获,在可视化的过程中有两个模型,一个是树形图、一个是太阳图,今天我们将继续解读八大数据分析模型之——全行为路径分析,让你快速直观看到用户如何在使用你的产品。转载 2023-11-02 15:08:21 · 147 阅读 · 0 评论 -
数据分析模型之六:粘性分析
留存,被认为是衡量产品健康度的一大高级指标,除了“留存”,我们最常谈起的就是“粘性”,但如何量化它呢?今天我们分享一个分析模型——,让大家对产品的粘性衡量从感性认知上升到理性认知,帮你深刻理解并能应用于业务场景。转载 2023-11-02 11:35:10 · 231 阅读 · 0 评论 -
数据分析模型之五:自定义留存分析模型
定义:满足某个条件的用户,在某个时间点有没有进行回访行为公式:若满足某个条件的用户数为n,在某个时间点进行回访行为的用户数为m,那么该时间点的留存率就是m/n以我们常用的指标举个例子:“新增用户日留存”,就是某天新来的用户,第二天打开app或网站的比例,第三天打开app或网站的比例,第七天打开app或网站的比例,第N天打开app或网站的比例。新增用户留存这一指标就是N-day留存,即第几日留存,这里的“日”可以是“周”,也可以是“月”,大家现在普遍认识的用户留存,一般都是“N-day”留存了。转载 2023-11-01 17:56:06 · 87 阅读 · 0 评论 -
python基于geopandas的空间数据分析之二:坐标参考系
在geopandas中,涉及到面积长度等计算的结果与所选择的投影坐标系关系密切,投影坐标系选择的不恰当会带来计算结果的偏差,直接关乎整个分析过程的有效与否。本文将探索geopandas对坐标参考系的管理内容。原创 2023-10-30 09:45:59 · 534 阅读 · 0 评论 -
数据分析模型之四:热图分析模型
就像广场草坪,如果设计得不合理,没有铺设石子步道,很多人会抄近道横穿草坪直达对面的建筑物,时间长了即使没有路也走出路来,如果从高处俯瞰的话,很容易判断出哪个建筑物哪个位置的店铺是客流最集中的“旺铺”。同样的,我们也希望了解用户在网页上的关注点在哪里,尤其对于官网首页来说,信息密度极高,用户究竟是如何点击?如何浏览的?网页热图示意图按计算维度划分,热图可以分为点击热图和浏览热图。点击热图。转载 2023-11-01 16:22:12 · 237 阅读 · 0 评论 -
数据分析模型之三:漏斗分析模型
漏斗分析模型,简单来讲,就是抽象产品中的某一流程,观察流程中每一步的转化与流失。转载 2023-10-31 17:50:15 · 291 阅读 · 0 评论 -
数据分析模型之二:事件模型
在日常工作中,不同岗位、不同角色所关注的事件各不相同,比如,市场人员可能关注点击进入落地页的人数以及进入落地页后用户是否点击核心按钮,比如“立即注册/立即购买”等?运营人员可能更关注某次邀请好友活动中老用户是否点击该活动页面,是否将邀请海报分享到朋友圈?PM可能更关心新功能上线后用户是否点击打开?在洞察诸如此类的指标过程中,事件模型就起到了至关重要的作用。那么,什么叫做“事件”呢?简单讲,就是用户在产品上的行为。转载 2023-10-31 11:39:31 · 822 阅读 · 0 评论 -
电商评论情感分类-基于CNN-Pytorch
电商评论情感分类-基于CNN-Pytorch原创 2023-10-26 18:22:04 · 111 阅读 · 1 评论 -
RMF模型简介
RMF模型原创 2023-10-11 16:55:03 · 498 阅读 · 0 评论 -
数据分析模型之八:用户分群模型
用户分群就是一个典型的简化理解用户群体的方法。通过对用户的分群,方便我们能够更好的寻找最关键的核心用户、精细化设计产品、针对化运营。对用户进行人群细分的前提是有数据做依托。转载 2023-10-13 15:04:19 · 652 阅读 · 0 评论 -
电商评论情感分类-基于CNN-Keras
电商评论情感分类,基于CNN-Keras原创 2023-10-25 15:24:42 · 414 阅读 · 0 评论 -
python基于geopandas的空间数据分析之一:数据结构
geopandas是建立在GEOS、GDAL、PROJ等开源地理空间计算相关框架之上的,类似pandas语法风格的空间数据分析Python库,其目标是尽可能地简化Python中的地理空间数据处理,减少对Arcgis、PostGIS等工具的依赖,使得处理地理空间数据变得更加高效简洁,打造纯Python式的空间数据处理工作流。原创 2023-10-24 02:59:33 · 512 阅读 · 0 评论