萝 卜
码龄4年
  • 166,807
    被访问
  • 87
    原创
  • 60,698
    排名
  • 183
    粉丝
关注
提问 私信

个人简介:公众号:数据分析与商业实践 公众号特点:原理,原数据,源代码,注释一应俱全 个人介绍:热爱数据分析,也痴迷心理学

  • 加入CSDN时间: 2018-10-03
博客简介:

阅读从未停止,输出从未开始

博客描述:
数据分析,可视化,网络爬虫,社会心理学,行为科学
查看详细资料
  • 3
    领奖
    总分 467 当月 22
个人成就
  • 获得197次点赞
  • 内容获得89次评论
  • 获得1,100次收藏
创作历程
  • 5篇
    2021年
  • 78篇
    2020年
  • 5篇
    2019年
成就勋章
TA的专栏
  • 计算机视觉
    4篇
  • 商业实践
  • 项目实战
    14篇
  • 业务思维
    4篇
  • 数据分析
  • 数据处理
    15篇
  • 数据可视化
    13篇
  • 统计学
  • 原理趣析
    8篇
  • Python 实现
    3篇
  • 心理学 & 技巧
  • 心理/行为科学
    11篇
  • 个人爆发式成长的25种思维
    2篇
  • 高效 Office 不加班
  • Excel -- 办公/数据分析
    8篇
  • Word 论文办公策划不用愁
    4篇
  • SQL 刷题&面试
    4篇
  • 网络爬虫
    4篇
  • R语言
    1篇
  • 最近
  • 文章
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

「流程案例」| 胡润富豪榜数据获取、分析与可视化

前言谁是中国首富?这是每年胡润富豪榜发出时大家最关心的话题。但只关注第一位就太未免浪费这份榜单的价值了,事实上这份榜单能挖掘到的信息很多,比如:哪些行业创造财富的能力最强这些大佬的年龄又集中在哪些区间哪些人资产进步最大本文将从数据获取、数据清洗、数据可视化入手,实现一整套完整的数据分析流程目标网站:https://www.hurun.net/zh-CN/Rank/HsRankDetails?pagetype=rich本文数据代码可以在公众号 “数据分析与商业实践” 后台回复「胡润」获
原创
发布博客 2021.11.26 ·
1103 阅读 ·
0 点赞 ·
0 评论

计算机视觉 | 2.颜色阈值&蓝幕替换(cv2掩膜的设置,图像堆叠,蓝幕抠图)

前言把图像转为灰度图像的像素网格以及 x 和 y 的函数来处理以后,我们还需要学会如何利用这些信息,例如如何用图像信息来分离特定区域。计算机图形和视频广泛应用了颜色阈值这门技术,比如蓝幕。使用蓝幕时,我们需要识别并替换大片蓝色区域,构建虚拟的背景图就是通过蓝幕进行(比如我们要将下图的蓝色背景换成跑车本该在的跑道上)。能够理解颜色阈值的基本原理并将代码用于实际的案例是本文的目标,下面将详细介绍如何利用Python实现颜色阈值的选取与蓝幕替换,本节的原理和代码结合的十分紧密,所以就不像以往那样拆成原理+代
原创
发布博客 2021.11.24 ·
3105 阅读 ·
0 点赞 ·
0 评论

计算机视觉 | 3.颜色空间及其转换(hsv通道识别掩膜)

前言把图像转为灰度图像的像素网格以及 x 和 y 的函数来处理以后,我们还需要学会如何利用这些信息,例如如何用图像信息来分离特定区域。计算机图形和视频广泛应用了颜色阈值这门技术,比如蓝幕。使用蓝幕时,我们需要识别并替换大片蓝色区域,构建虚拟的背景图就是通过蓝幕进行(比如我们要将下图的蓝色背景换成跑车本该在的跑道上)。能够理解颜色阈值的基本原理并将代码用于实际的案例是本文的目标,下面将详细介绍如何利用Python实现颜色阈值的选取与蓝幕替换,本节的原理和代码结合的十分紧密,所以就不像以往那样拆成原理+
原创
发布博客 2021.11.02 ·
533 阅读 ·
2 点赞 ·
0 评论

计算机视觉 | 1. 一切的基础: 灰度图像 (读取,转换,像素定位)

01 引言一切看似复杂的计算机视觉项目,其基础都会回归到单张图片上。能够理解 灰度/彩色图像 的基本原理并将代码用于实际案例是本文的目标。下文将详细介绍如何利用 Python 实现 灰度/彩色图像 的基本处理,主要分为两个部分:详细原理介绍Python 代码实战本文数据代码可以在后台回复「灰度图像」获取02 原理介绍计算机实际上是怎么”看“图像数据的呢?图像只是三维现实场景的二维表示,比如现实中的一辆汽车是三维物体,但如果你给汽车拍张照片,我们就得到了它的二维图像。这张图像包含的信息有
原创
发布博客 2021.10.31 ·
885 阅读 ·
1 点赞 ·
0 评论

新专栏 | 有趣的计算机视觉

这个专栏结束时,我们将掌握计算机视觉(Computer Vision,下简称 CV)中最基础又最经典项目之一 —— “人脸识别” 背后的原理,并用代码实现完整的流程,最终为以后更深入的学习人工智能下其他领域的知识打下基础。如上图所示,算法程序能:以绘制边框的形式来定位我们的面部位置跟踪面部特征在一段时间内的动作(脸部五官和一些细节比如眉毛等)检测该人脸的性别,配饰情况(眼镜与否)以及情绪所属状态的概率,比如该表情表示该人有80%的概率处在微笑开心的状态文章风格跟以往的 “原理+代码” 系列.
原创
发布博客 2021.10.31 ·
1105 阅读 ·
0 点赞 ·
0 评论

超详细!逻辑回归实现客户流失预警模型(含源数据)

???? 关注一下~,更多商业数据分析案例等你来撩利用逻辑回归进行客户流失预警建模中涵盖了许多比较细的知识点,思维导图只展示了极小的一部分,相关知识点链接将穿插在文中。本文已在公众号 " 数据分析与商业实践 " 首发,源数据和包含详细步骤和注释的源代码可空降文末。因为源代码中有一些自定义的长函数,直接放在文章中会非常占篇幅,而且阅读体验也不怎么好,而且分享有限,所以更多案例,操作,源数据可移步公众号,资源在精不在多,赶快开始吧!数据读入churn = pd.read_csv('telec
原创
发布博客 2020.06.24 ·
3554 阅读 ·
7 点赞 ·
2 评论

原理+代码|详解层次聚类及Python实现/层次树怎么看/如何从层次树中查看聚类过程(附源数据)

前言聚类分析是研究分类问题的分析方法,是洞察用户偏好和做用户画像的利器之一。聚类分析的方法非常多,能够理解经典又最基础的聚类方法 —— 层次聚类法(系统聚类) 的基本原理并将代码用于实际的业务案例是本文的目标,同时这也会为理解后续与聚类相关的推文如 K-Means 等打下基础。本文将详细介绍如何 利用 Python 实现基于层次聚类的客户分群,主要分为两个部分:层次聚类详细原理介绍Python 代码实战讲解本文源数据与代码在公众号 “ 数据分析与商业实践 “ 后台回复 ” 层次聚类 “ 即可
原创
发布博客 2020.12.02 ·
3407 阅读 ·
14 点赞 ·
2 评论

joblib 保存训练好的模型并快捷调用(附源数据)

用已知数据集训练出一个较为精准的模型是一件乐事,但当关机或退出程序后再次接到 “ 用新的格式相同的数据来进行预测或分类 ” 这样的任务时;又或者我们想把这个模型发给同事并让TA用于新数据的预测…难道又要自己或他人重复运行用于训练模型的源数据和代码吗?所以这篇推文将展示如何仅用短短的两行代码,便能将优秀的模型下载并加载用于新数据的简便快捷的操作,让效率起飞????注:本文数据与源代码可空降文末获取~joblib 下载/加载最佳模型下载最佳模型反复调优后,我们通常能够获得一个相对精准的模型。
原创
发布博客 2020.11.02 ·
1817 阅读 ·
0 点赞 ·
1 评论

Python Pandas 分类/连续变量的探索性数据分析(附源码与数据)——pandas 描述性统计,交叉表,数据透视表

​这是趣味统计的第 1 期分享作者 l 萝卜正式开始建模与处理数据前,对数据进行探索并有一个初步的认识非常重要,本文将围绕变量探索,展示分类、连续变量,以及两种类型变量结合的探索方法,并展示 Python Pandas 数据处理与可视化中的一些快捷常用骚操作~注:本文数据与源代码在公众号 “ 数据分析与商业实践 ” 后台回复 “ 变量探索 ” 获取~~分类变量01 一个分类变量一个分类变量的分析方法可考虑频次和百分比,用饼图或者柱状图表示都可以我们也可以通过设置画布布局来同时显示两
原创
发布博客 2020.09.07 ·
1486 阅读 ·
2 点赞 ·
0 评论

摸一下而已,表情开心点……

发布动态 2020.09.01

案例实战 | Python 实现 AB 测试中常见的分层抽样与假设检验 (附代码和数据集)

作者 l 萝卜本文会将原理知识穿插于代码段中,相关代码和数据集可在公众号 “ 数据分析与商业实践 ” 后台回复 " AB测试 " 获取。前言在电商网站 AB 测试非常常见,是将统计学与程序代码结合的经典案例之一。尽管如此,里面还是有许多值得学习和注意的地方。A/B 测试用于测试网页的修改效果(浏览量,注册率等),测试需进行一场实验,实验中控制组为网页旧版本,实验组为网页新版本,实验还需选出一个指标 来衡量每组用户的参与度,然后根据实验结果来判断哪个版本效果更好。通过这些测试,我们可以观察什么.
原创
发布博客 2020.08.31 ·
737 阅读 ·
1 点赞 ·
0 评论

主成分分析实现数据描述与变量压缩(附 Python code 与源数据)

前言在之前的文章中,我们已经详细介绍了主成分分析的原理,并用 Python 实现主成分分析。原理+代码|Python基于主成分分析的客户信贷评级实战(附代码与源数据)​在那篇文章中我们指出的主成分分析常见的三个应用场景中,其中有一个是**「数据描述」**,以描述产品情况为例,比如著名的波士顿矩阵,子公司业务发展状况,区域投资潜力等,需要将多变量压缩到少数几个主成分进行描述,压缩到两个主成分是最理想的,这样便可在一张图内表现出来。但这类分析一般做主成分分析是不充分的,能够做到因子分析更好。但因子分.
原创
发布博客 2020.08.23 ·
368 阅读 ·
1 点赞 ·
0 评论

不到 20 行 Python 代码,轻松玩转波士顿矩阵图!

代码简洁优雅,效果拔群!
原创
发布博客 2020.08.21 ·
948 阅读 ·
0 点赞 ·
0 评论

原理+代码|Python 基于主成分分析的客户信贷评级实战(附源数据)

快速上手,代码注释详尽,原理详实!
原创
发布博客 2020.08.08 ·
1069 阅读 ·
2 点赞 ·
2 评论

Python 绘制饼图时同时在每一块上显示数值和占比

能来到这篇文章的对 matplotlib 或者 seaborn 应该都挺熟的????所以直接上代码和效果图import matplotlib.pyplot as plt# make the pie circular by setting the aspect ratio to 1# plt.figure(figsize=plt.figaspect(1))values = [3, 12, 5, 8] labels = ['a', 'b', 'c', 'd'] def make_autopc
原创
发布博客 2020.08.07 ·
6360 阅读 ·
10 点赞 ·
0 评论

原理 + 代码 | Python 实现多元线性回归模型 (建模 + 优化,附源数据)

前言多元线性回归模型非常常见,是大多数人入门机器学习的第一个案例,尽管如此,里面还是有许多值得学习和注意的地方。其中多元共线性这个问题将贯穿所有的机器学习模型,所以本文会将原理知识穿插于代码段中,争取以不一样的视角来叙述和讲解如何更好的构建和优化多元线性回归模型。主要将分为两个部分:详细原理Python 实战Python实战Python多元线性回归的模型的实战案例有非常多,这里虽然选用的经典的房价预测,但贵在的流程简洁完整,其中用到的精度优化方法效果拔群,能提供比较好的参考价值。数据探索
原创
发布博客 2020.08.05 ·
7283 阅读 ·
18 点赞 ·
4 评论

Matplotlib 和 Seaborn 中文显示问题,绘图时数值的负号 ‘-‘ 为方块的问题,Jupyter Notebook 实现多行输出

直接上代码,亲测了两年半。import pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsplt.rc('font', **{'family': 'Microsoft YaHei, SimHei'}) # 设置中文字体的支持sns.set(font='SimHei') # 解决Seaborn中文显示问题,但会自动添加背景灰色网格plt.rcParams['axes.unicode_minus'] = False
原创
发布博客 2020.08.03 ·
419 阅读 ·
1 点赞 ·
1 评论

Python Pandas 选出指定类型的所有列,统计列的各个类型的数量并用于探索性数据分析(附数据与源码)

更多包含丰富源数据源代码的 Pandas 高阶操作,数据可视化,以及商业数据分析实战案例,尽在公众号 “ 数据分析与商业实践 ”通过本文,你将知晓如何利用 Pandas 选出指定类型的所有列用于后续的探索性数据分析,这个方法在处理大表格时非常有用(如列非常多的金融类数据),如果能够较好的掌握精髓,将能大大提升数据评估与清洗的能力,为后续建模提供高质量的数据。这个技巧并没有什么原理性的东西,所以这里直接呈现代码。数据读入统计列的各个类型的数量选出类型为 object 的所有列在机器学..
原创
发布博客 2020.07.30 ·
2427 阅读 ·
2 点赞 ·
0 评论

Pandas 查找,丢弃列值唯一的列 (附源数据与代码)

更多包含丰富源数据源代码的 Pandas 高阶操作,数据可视化,以及商业数据分析实战案例,尽在公众号 “ 数据分析与商业实践 ”前言数据清洗很重要,本文演示如何使用 Python Pandas 来查找和丢弃 DataFrame 中列值唯一的列,简言之,就是某列的数值除空值外,全都是一样的,比如:全0,全1,或者全部都是一样的字符串如:已支付,已支付,已支付…这些列大多形同虚设,所以当数据集列很多而导致人眼难以查找时,这个方法尤为好用。代码实现上代码前先上个坑吧,数据列中的空值 NaN 也会被..
原创
发布博客 2020.07.29 ·
437 阅读 ·
0 点赞 ·
0 评论

Python 基于决策边界的随机森林调优(决策树亦适用)

你的调参侠已上线,简单通俗,实操性强
原创
发布博客 2020.07.26 ·
831 阅读 ·
1 点赞 ·
0 评论
加载更多