自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(72)
  • 收藏
  • 关注

原创 python:json转dataframe

json转dataframe的python脚本

2023-07-19 13:56:37 683

原创 分享// 哲学入门音视频

哲学家不断拓宽人类的思想边界,致敬。

2023-05-14 17:42:44 626

原创 数据血缘管理

作为数据分析师,充分认识业务数据流,可以大大提高数据分析效率。

2023-05-12 18:07:21 1046

原创 立个flag

工具类,云平台类厂商,数据服务厂商

2023-05-12 09:37:26 107

转载 研报摘要// 数据中台

艾瑞网:2022年中国数据中台行业研究报告

2023-05-10 14:20:40 114

转载 研报摘要// 大数据分析平台

艾瑞网:2022年中国大数据分析平台行业研究报告

2023-05-10 13:55:10 81

转载 数据分析底层思维

目标思维、系统思维、逻辑思维、结构化思维

2023-05-05 16:33:03 328

原创 读书笔记// 《数据产品经理》

写给数据产品经理新人的工作笔记

2023-05-04 11:22:02 531

转载 同行分享// B端和C端的区别

B端和C端的差别及数据分析

2023-04-28 10:47:02 128

原创 经验 // 用python自动生成word报告或excel报表

在和业务或领导多次交流后,报告或报表的模板比较固定了,这时候可以用python自动生成,提升质效。

2023-04-24 09:48:58 960

原创 读书笔记//《数据科学工程实践》

出版时间:2021年11月副标题:用户行为分析、A/B实验、SQLFlow作者们是一线互联网企业的数据科学家、数据分析师和算法工程师,主要就职于滴滴、部分就职于腾讯、快手等。点评:神仙下凡布道。本书让我领略了大厂如何运用最新数据技术解决商业问题。有点小瑕疵就是,有部分章节的引用案例不是大厂实战,缺少说服力。再次感叹,平台和机会多么重要啊!

2023-04-20 12:49:55 346

原创 AB测试-A/B Test

应用场景,什么是ab测试,作用是什么,ab测试流程,常见误区(避坑指南)等。

2023-03-02 13:26:34 2360

原创 经验 // 通用又好用的思维工具

如何专业地工作?让这些思维工具来帮忙。

2023-02-28 11:14:05 385

原创 经验 // 指标异常了怎么办?

总结影响指标波动的因素类别,两个方法论帮助快速定位异常问题。

2023-02-27 12:00:42 1045

原创 读书笔记//《数据分析之道》

数据治理、数据思维、数据埋点、数据标签体系、数据指标体系、数据分析方法论

2023-02-25 21:47:39 852

原创 辛普森悖论

了解辛普森悖论,让你更好理解数据从而做出正确决策。

2023-02-24 10:02:22 1104

原创 同行分享//数据分析师十年工作总结

十年数据分析的感悟,以及如何做到专业。

2023-02-21 10:40:39 501

原创 同行分享// 9大数据分析方法+7大能力

9大数据分析方法,7大必备能力

2023-02-15 12:06:04 681

原创 数据人的生活智慧(2)

运用数据思维,让生活更加和谐、从容、智慧。

2023-02-12 22:20:21 210 1

原创 数据人的生活智慧(1)

运用数据思维,让生活更加和谐、从容、智慧。

2023-02-12 12:11:54 409

原创 读书笔记//《数据分析:企业的贤内助》

如何成为优秀的分析师?

2023-02-10 11:10:21 628

原创 统计检验(一)// 方差分析

什么是方差分析?涉及数学公式哦~

2023-02-10 10:06:43 1272

原创 Python数据可视化(三)(pyecharts)

分享一些python-pyecharts作图小技巧,用于展示汇报。

2023-02-08 11:36:21 1017

原创 Python数据可视化(二)(matplotlib)

分享一些python-matplotlib作图小技巧,用于汇报展示。

2023-02-08 11:14:27 297

原创 读书笔记//《用户画像》之数学模型的应用

延伸应用:对于每个用户来说,其身上同一个标签出现的次数越多,该标签对于这个用户来说越重要,该标签中全部用户的所有标签产生的标签集中出现的次数越多,该标签的重要性越低。延伸应用:随着时间的推移,用户的历史行为和当前行为的相关性不断减弱。用户标签权重=行为类型权重 * 时间衰减 * 用户行为次数 * TF-IDF计算标签权重。通过以上公式,可以对用户特征库的行为数据计算权重标签,筛选出与用户行为相关性最大的标签。通过对用户的标签构建“同现矩阵”的方式对标签进行聚类。应用:标签相似度计算。应用:用户价值类标签。

2022-09-23 17:12:41 321

原创 分享材料(不断更新)

1.Apriori算法及关联规则链接: https://pan.baidu.com/s/1cpQkORm7k75ZB5k7zuyalg 密码: nq5c2.基于ARIMA模型的餐厅销量预测链接: https://pan.baidu.com/s/1GtL1nW6bTMT3ckYs5L7tIw 密码: 89st3.电商产品评论数据情感分析链接: https://pan.baidu.com/s/1ZIxyfzd-gL7y6RMTlJfFNQ 密码: s2p94.产品营销模型链接: https:

2021-03-10 17:50:30 9613 4

原创 Python统计检验(一)

一、简介介绍了8种常见的统计检验方法,包括方差分析、卡方检验、t检验等。首先简单回顾统计检验方法的作用、原假设、应用场景等,然后用Python实现并解读结果。同时,为获取直观理解,穿插展示了热力图、Q-Q图、小提琴图、散点矩阵图、交互效果图等可视化图表。内容重在实战,不涉及高深理论知识及推导。重要事情说三遍~想听我讲案例,请点这里,进入B站想听我讲案例,请点这里,进入B站想听我讲案例,请点这里,进入B站二、框架三、附部分代码及输出#相关系数plt.figure(figsize=(15,1

2020-07-25 05:10:43 982

原创 【机器学习算法实战3】产品营销模型之建置及预测(CDA赛题)

一、案例介绍这是CDA数据分析网站的一个赛题,A公司希望发掘用户购买产品的行为习惯,建立产品精准营销模型,对有意向的客户进行精准营销,增加收入,减少开支。将通过混淆矩阵(Confusion matrix)来评价分类模型的准确率,准确率越高,说明正确预测出响应营销效果越好。本次实战以官方公布的评分标准accuracy为目标进行参数调优与建模。又探索了在不同成本收益模型下,选择不同的模型评估指标,最终得到最高的潜在盈利预测。附赛题网址:https://contest.cda.cn/info/id/6.重

2020-07-09 09:53:14 1453 4

原创 Python文本挖掘练习(五)// 电商产品评论数据情感分析

第一部分 案例简介本案例首先利用Python文本挖掘技术,对碎片化、非结构化的电商网站评论数据进行清洗与处理,转化为结构化数据。然后对文本数据进一步挖掘与分析,采用决策树算法构建情感分类模型,探索用机器学习算法对评论标注type的可能性;依据情感词库匹配情感词,计算每条评论的情感值,进而机器标注每条评论的正负类型type,用词云图直观呈现正负评论的关键词,初步获得用户的反馈意见。最后利用gensim库构建主题挖掘模型,深入了解用户的意见、购买原因、产品的优缺点等。说明:本案例侧重分析思路及代码实现,不深

2020-07-03 22:19:27 16190 9

原创 【机器学习算法实战2】基于Apriori算法的零售商品购物篮分析

一、案例介绍了解顾客的购买习惯和偏好对商家非常重要。挖掘分析商品之间的关联性,掌握顾客的购买行为特征,以此为依据来制定行动策略,如商品摆放、商品定价、新品采购集合、促销策略等等,可以帮助商家提高销量获取更多利润。本视频首先回顾关联分析的相关知识点,带领大家一起用python手写Apriori算法,最后对零售商品购物篮数据挖掘有效的关联规则。重要事情说三遍~想听我讲案例,请点这里,进入B站想听我讲案例,请点这里,进入B站想听我讲案例,请点这里,进入B站二、框架附部分代码及输出..

2020-07-01 12:51:00 4063 8

原创 Python算法总结(十一)Apriori算法(附手写python实现代码)

一、算法类型无监督算法二、算法原理(1)算法流程(2)指标三、手写Python算法(1)产生频繁项集def create_c1(dataset): """ #辅助函数1 函数功能:⽣成第⼀个候选项集c1,每个项集只有1个item 参数说明: dataset:原始数据集 返回: frozenset形式的候选集合c1 """ c1=[] for transaction in dataset: f

2020-07-01 12:37:44 6998 2

原创 Python算法总结(十)// 优点、缺点和参数

注:本文总结参考《Python机器学习基础教程》,感谢作者!算法一神经网络MLP算法优点给定足够的计算时间和数据,仔细调节参数,神经网络相对其他机器学习算法表现往往最好。算法缺点(1)需要很长的训练时间(2)MLP在均匀数据上性能最好。如果数据包含不同种类的特征,基于树的模型可能表现更好。、(3)隐层层权重可视化,但难以解释关键参数(1)hidden_layer_sizes参数,层数和每层的隐单元个数。每个隐层的结点个数通常与输入特征个数相近。(2)activation参数,(3)a

2020-06-30 08:53:29 825

原创 Python时间序列分析练习(一)// 基于ARIMA模型的餐厅销量预测

参见教程python数据分析与挖掘实战

2020-06-29 22:16:58 3617

原创 【机器学习算法实战1】小额信用贷款预测

B站视频链接一、介绍本案例将涉及算法填充缺失值、管道式网格搜索、阈值调优、对未知数据的预测等,分别采用逻辑回归、决策树、XGBoost和MLP神经网络4种算法进行模型构建与评估,参数调优的第一性指标:auc值。同时深入讲解ROC曲线、K-S曲线的表现。二、框架1 案例简介2 数据展示3 特征工程4 探索分析5 数据预处理6 模型构建与评估(4个算法)7 阈值调优8 预测...

2020-06-26 10:24:52 1461 3

原创 模型评估与改进(四)// 样本不均衡

一、什么是样本不均衡?回答:在有监督分类算法中,标签的类别比重差异大。二、如何从采样角度纠正样本不均衡?回答:1、上采样(over-sampling):通过增加分类中少数类样本的数量来实现样本均衡。比较好的方法有SMOTE算法,通过插值的方式加入近邻的数据点。2、下采样(under-sampling):通过减少分类中多数类样本的数量来实现样本均衡。这个方法可能导致信息缺失,为克服这一缺点,RandomUnderSampler丢掉更多类别边界部分的数据。from imblearn.over_sam

2020-06-19 13:59:16 1332

原创 Python文本挖掘练习(四)// 词云图

一、练习目标1、掌握结巴分词,增加不在jieba的新词,剔除停用词,分词后只保留词性为n的词;2、利用Counter函数统计文档的词语频次;3、安装wordcloud,制作词云图。二、步骤与代码#********* 步骤一 ********##获取当前路径import oscwd=os.getcwd()Data_Folder=cwd+'\Demo5Files'#走访文件from os import walkfrom os.path import joinfile_list=[

2020-06-12 22:48:44 756

原创 Python算法总结(九)集成算法

注:本篇文章不涉及模型参数调优。参数调优是一个重要的大话题。1、什么是集成算法?多个模型集成在一起的模型叫做集成评估器ensemble estimator,组成集成评估器的每个模型都叫做基评估器base estimator或弱学习器。2、集成算法有哪些?装袋法Bagging提升法Boosting堆叠法Stacking3、什么是装袋法Bagging?Bagging选用相同的弱学习器作为基模型,每个基模型的训练数据不是全部的数据集,而是通过“有放回的随机抽样”得到的随机子集,预测时各个基模型进行

2020-06-12 22:45:25 1305

原创 Python文本挖掘练习(三)// 文本聚类

一、练习目标1、运用tfidf技术进行词转向量2、构建KMeans模型用于文本聚类注:本次练习不涉及文本分词。二、步骤与代码附聚类效果评估将聚类结果与新闻真实分类进行比较,总体新闻分类(聚类)的准确率达到93%。...

2020-06-11 23:11:01 1782 3

原创 Python文本挖掘练习(二)// 情感分析

一、练习目标1、掌握读取csv文档内容,掌握词转向量2、构建决策树模型用于评论数据集的正负情感分类3、安装graphviz软件,画决策树注:本次练习不涉及文本分词、模型参数调优。二、步骤与代码...

2020-06-11 22:59:15 883

原创 Python文本挖掘练习(一)// 新闻摘要

一、练习目标1、掌握读取文档内容、文章分句、文本分词的方法2、掌握文本向量化,剔除停用词3、掌握用cosine方法计算文档相似度,并基于此提取文档摘要4、将过程封装成函数,方便调用二、步骤与代码三、封装函数def summary(path,num_summary=2): ''' 函数功能:实现文本摘要 参数说明: path:文档路径 num_summary:摘要长短 返回: result:摘要

2020-06-11 22:48:33 1355

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除