数据分析
文章平均质量分 51
DilicelSten
Data has a better idea.
展开
-
数据分析进阶-Python批量解压加密文件
Python批量解压加密文件原创 2022-06-16 21:58:19 · 521 阅读 · 0 评论 -
数据分析进阶-Python绘制桑基图
前言通过绘制桑基图来呈现不同时期用户的状态变更~代码import pandas as pddata = pd.read_excel('data-2.xlsx', sheet_name = 'Sheet2')# 取桑基图的节点node = list()each_node = list()for i in data['col1']: each_node.append(i) for i in data['col2']: each_node.append(i)eac原创 2022-02-16 21:35:41 · 1227 阅读 · 7 评论 -
数据分析进阶-Python提取Word文档中的表格信息
前言利用此方法针对大量的报名表进行信息提取~安装工具包pip install python-docx表格信息代码注意读取的EXCEL文件只能是docx后缀的噢~若文件太多可利用以下方法批量转化import osimport docximport xlwtimport shutilfrom win32com import client as wc# 把doc文档转成docx文档def convert_word(path, target_dir): filename =原创 2021-12-30 21:48:13 · 3367 阅读 · 1 评论 -
数据分析进阶-Excel自动化工具包openpyxl的基础使用
安装工具包pip install openpyxl工作簿的使用注意读取的EXCEL文件只能是xlsx后缀的噢~# 创建工作簿wb = openpyxl.Workbook()wb.save('demo.xlsx') # 在源文件修改后也可以作为另存为的选项# 打开工作簿wb = openpyxl.load_workbook('test.xlsx', data_only=True) # 读取公式设置# 查看sheet名print(wb.sheetnames)# 获取sheet的两原创 2021-12-25 11:54:03 · 935 阅读 · 0 评论 -
数据分析进阶-Excel绘制分段折线图
前言今天1024程序员节,虽然好像和我没有特别强的关系,写篇博客蹭个勋章吧~Excel绘制分段折线图1、如何凸显折线图中的重点片段(1)首先将需要重点表示的数值提取出来放置新的一行数据中,如图所示,此处将2月、3月、6月与7月的数据独立出来(2)选中3行数据插入折线图即可,后续仅需调整线条的颜色2、用虚线表示预测值(1)若有多个预测值可以独立成行,此处以7月与8月为例(2)选中3行数据插入折线图即可,后续仅需调整线条的线型...原创 2021-10-24 21:06:19 · 4391 阅读 · 0 评论 -
数据分析进阶-cx_Oracle的简单使用
本示例使用pandas+cx_Oracle完成数据的读取和插入import pandas as pdimport cx_Oracle as cx原创 2021-06-14 19:53:17 · 291 阅读 · 0 评论 -
数据分析进阶-基于tsfresh的多变量时间序列聚类
前言上一篇博客主要尝试了基于tslearn的单变量时间序列聚类,多变量时间序列的方法经过一番搜索也没有找到合适的方式,因此考虑借助强大的时间序列特征提取工具tsfresh与KMeans尝试多变量时间序列的聚类实验基于日消费总额+日消费次数的时间序列聚类一、tsfreshtsfresh可以提取的时间序列特征数量相当全面,其中对特征的中文解读建议查看以下两篇博客:https://www.jianshu.com/p/de2f7d333b9fhttps://www.jianshu.com/p/073f原创 2021-06-13 19:19:00 · 1728 阅读 · 19 评论 -
数据分析进阶-基于tslearn的单变量时间序列聚类
前言最近受一篇2015年文章《时间序列用户生命周期的聚类方法》的启发,阅读了很多时间序列聚类相关的方法,用消费行为的时间序列尝试去对用户行为进行分群,虽然现阶段的效果不如预期,就当总结希望后续能有所交流~基于日消费总额的时间序列聚类为了更好地保留用户消费行为时间序列特征(包含全局特征&局部特征),采用基于时间序列形状的方式以计算序列相似度进行用户行为区分,其中尝试了两个方向:一、方法说明1.DTWDTW即Dynamic Time Warping,是动态时间规整算法,利用DTW的原因是用户原创 2021-06-13 18:50:28 · 3244 阅读 · 12 评论 -
数据分析进阶 - 基于聚类的用户标签构建
前言在用户画像标签体系建设的过程中,大部分标签都是以规则映射的方式构建,当规则难以梳理时,可以考虑用聚类模型进行划分,再用决策树的方式输出规则,这里仅简单分享,欢迎交流~示例确定目的对用户消费行为进行划分客群(这里不使用RFM模型)特征选择当月各消费区间消费频次当月消费均值当月消费方差当月日消费频次预估聚类趋势这里可直接参考之前的博客: https://blog.csdn.net/Totoro1745/article/details/112132472聚类手肘法确定聚类个数原创 2021-05-09 20:52:19 · 577 阅读 · 0 评论 -
数据分析进阶 - 相关分析(卡方检验)
前言上一篇博客是相关分析中的皮尔逊相关系数,具体可见链接:https://blog.csdn.net/Totoro1745/article/details/114748542?spm=1001.2014.3001.5502卡方检验皮尔逊相关系数用于两个连续性变量,当变量为两个无序分类变量时就需要用卡方检验。它是一种基于卡方分布的假设检验方法,根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题。主要应用于分类变量,根据样本数据推断总体分布与期望分布是否有显著差异或推断两个分类变量是否相关或相原创 2021-03-16 21:12:32 · 6105 阅读 · 1 评论 -
数据分析进阶 - 相关分析(皮尔逊相关系数)
相关分析相关分析是研究两个或两个以上处于同等地位的随机变量间的相关关系的统计分析方法。通过对不同特征或数据间的关系进行分析,发现其中关键影响及驱动因素。在实际的工作应用中,常常用于特征的发现与选择。皮尔逊相关系数皮尔逊相关系数( Pearson correlation coefficient),又称皮尔逊积矩相关系数(Pearson product-moment correlation coefficient,简称 PPMCC或PCCs),是用于度量两个变量X和Y之间的相关(线性相关),其值介于-1与原创 2021-03-13 15:41:41 · 7621 阅读 · 0 评论 -
数据分析进阶 - 霍普金斯统计量预估聚类趋势
霍普金斯统计量原理在给数据集做聚类之前,我们需要事先评估数据集的聚类趋势,要求数据是非均匀分布,均匀分布的数据集没有聚类的意义。霍普金斯统计量是一种空间统计量,用于检验空间分布的变量的空间随机性,从而判断数据是否可以聚类。计算步骤:均匀地从D的空间中抽取n个点p1,p2,…pn,对每个点pi(1≤i≤n),找出pi在D中的最近邻,并令xi为pi与它在D中的最近邻之间的距离,即均匀地从D的空间中抽取n个点q1,q2,…qn,对每个点qi(1≤i≤n),找出qi在D-{qi}中的最近邻,并令原创 2021-01-03 11:30:15 · 5920 阅读 · 5 评论 -
数据分析进阶 - Excel函数Phonetic
前言之前用到过这个函数,应用在SQL查询的where子句里,但是一阵子没用脑袋就记不住了,所以借机记录下来~Phonetic函数PHONETIC函数可以把EXCEL一列字符放在一个单元格,这里举个小例子:1.首先有一列数据,如下所示,想让其以逗号为间隔变成一行2.给每行数据加个逗号,并且选择性粘贴为数值3.利用phonetic函数变成一行字符串就可以了...原创 2020-12-29 21:23:21 · 2337 阅读 · 0 评论 -
数据分析进阶 - 评分模型权重计算方法
前言在之前的经历里遇到一些需要确定各部分权重来得出最终结果的问题,例如用户游戏偏好得分的计算、用户价值模型的构建以及贡献度的计算等,所以这篇博客就讲讲如何确定权重~权重计算方法权重是指某因素在整体评价中的相对重要程度。权重越高,则该因素越重要。权重有两个特点:每个因素的权重在0-1之间所有隐私的权重和为1权重的确定方法有很多,主要分为以下两大类:主观赋权法客观赋权法思路与优缺点由专家根据经验进行主观判断得到权数,然后对指标进行综合评价。这是一种定性方法,易操作,但主原创 2020-12-27 20:19:17 · 11775 阅读 · 0 评论 -
数据分析特辑 - 数仓初入门
前言完全没想到在工作中也会有接触到数仓的一天,这里仅仅记录下在学习过程中一些特别入门的知识点,也帮自己总结总结~为什么要建设数仓方便沟通交流提高排查问题的效率提高数据开发的效率代码复用、表复用等复杂任务解耦(分散到各层或层内的不同表)提高数据质量,避免数据口径不一致等问题减少存储成本和计算成本数据库与数据仓库的区别数据库是面向事务的设计,数据仓库是面向主题的设计数据库一般服务于业务系统,数据仓库一般是服务于分析系统数据库一般存储在线交易数据,数据仓库存储的一般是历史数据数据原创 2020-08-23 16:16:46 · 335 阅读 · 0 评论 -
数据分析特辑 - 如何用Tableau做一个数据故事?
前言挺多公司都有使用Tableau这个可视化软件,因为在分析的进阶阶段所以自己抽空在B站(不得不说,B站是个不错的学习网站)跟着学习视频实操了一波,大概了解了一些图表的绘制以及一些升级操作。刚好有个契机所以用了Tableau从头到尾弄了一个数据故事,这里主要讲下心路历程吧,作为自己绘制第一个数据故事存在的不足还是比较多的,也方便自己以后再次复盘。Tableau故事绘制这里其实不会讲太多Tableau的实际操作,更多的还是对整体步骤层面的思考~这个绘制过程是以课题式的形式开展的,从数据集的选择到最终整体原创 2020-08-22 19:42:10 · 3191 阅读 · 0 评论 -
数据分析特辑 - 如何找到想要的数据集?
前言数据分析最首要的就是数据集了,有挺多文章有对数据集的查找方式都有所讲解,但是个人感觉还是整合比较好的方式会比较方便,所以这篇博客相对于是资源干货吧,后续会不断地更新数据的收集方式以及更新数据集的百度云网盘,供各位有需要分析的朋友们使用~公开数据搜集方式1.学习网站第一个最推荐的就是学习网站了,其中数据分析专项课程中会提供一些可以公开使用的数据集~PS:不得不说B站是个全能网站,找到相关分析课程后看下评论区,大多数会有数据集下载链接~Courserahttps://www.coursera原创 2020-08-15 21:07:06 · 1906 阅读 · 0 评论 -
用户画像应用中的常见误区
前言之前对用户画像已经有两篇博客输出,分别是一步一步认识用户画像和用户画像如何验证正确性,这两篇更多的是讲解用户画像的过程性问题,在实际业务应用中可能遇到的误区是本篇博客主要的内容。用户画像误区1.画像与业务场景关联度不高在“用户画像”概念之下,很多时候为了跟风而忘了使用的本质是为了什么,因此在未明确应用场景的前提下就开始建设用户画像平台,结果大概率是缺少使用者,导致一系列无用功的产生或者无限复工。2.重形式,轻实效很多时候“用户画像”仅仅是数字+可视化的产物,徒有酷炫的外表却缺乏实质,在实际业原创 2020-06-21 11:26:46 · 1227 阅读 · 0 评论 -
SQL优化系列 - MySQL表设计时要注意什么?
前言今天是5月的最后一天了,一边听着五月天的线上演唱会,一边整理下学过SQL相关的内容,之前有篇是针对SQL的知识点:https://blog.csdn.net/Totoro1745/article/details/106036161,接下来的优化系列也会不断的进行更新~MySQL表设计时要注意什么?1.为什么一定要设一个主键?在不设主键的情况下,innodb也会生成一个隐藏列,作为自增主键。自己指定一个主键,在有些情况下,就能显式的用上主键索引,提高查询效率~2.主键为什么最好用自增呢?inn原创 2020-05-31 20:53:56 · 357 阅读 · 0 评论 -
SQLZOO附加题练习 - Window functions
前言SQLZOO里面的题还是比较适合初学者的,这里仅仅作为巩固基础,同时因为这道题目前搜不到相应的答案,所以做个小小的分享~PS:非小白玩家可以去LeetCode、牛客网、CodeWars上刷题更佳题目General Elections were held in the UK in 2015 and 2017. Every citizen votes in a constituency. The candidate who gains the most votes becomes MP for th原创 2020-05-23 17:11:14 · 402 阅读 · 0 评论 -
数据分析特辑-如何推进与业务方的沟通?
前言作为数据分析师或者参与到数据分析项目中的朋友,应该少不了与业务方打交道。最近在这个方面上颇有感触,结合自己为数不多的项目经验以及网上相关文章的点拨,在此做一点点的思考分享,以下均为个人想法,也希望有类似经验的朋友们可以分享自己的想法或者意见~浅谈数据分析其实对数据分析的解释是因人而异的,都是自己的经验总结凝练出来的~在我看来,数据分析是在“道与术”的框架下从从可量化的现象中去寻找背后的数据关系,再去追溯可能的原因、结果等并提出合理的解决方法或建议。所谓“道”是在思维层面上的,即行业背景、业务知原创 2020-05-17 19:33:38 · 874 阅读 · 0 评论 -
数据分析进阶 - 关于SQL的知识点
前言SQL作为实际工作中的一部分,总是需要与它打交道,但总有种一知半解的感觉,所以此博客就作为学习笔记便于后续的回顾(写博客能够让自己记得更牢- -),也会根据工作实际遇到的场景来不断地补充…(如果有不对的地方欢迎指出)1. in和exists的区别in和exists用于子查询中,例如select field1from test1 where field2 in (select field2 from test2 )select field1from test1 awhere exis原创 2020-05-10 20:47:10 · 283 阅读 · 0 评论 -
分析思维锻炼 - 次日留存率下降怎么分析?
前言个人觉得数据分析重要的在于思维层面,奈何在这方面的训练不是很多。因此,后续将多多锻炼并整理成博客分享(内容仅为个人思考,会不断进行修正)分析思路明确问题# 在实际工作中通过沟通进行确定问题:次日留存率下降怎么分析?问题中不明确项:什么留存率 + 下降标准(对比什么)# 这里仅仅作为一个思维锻炼,因此我将问题简单化问题:次日新增用户留存率下降公式 = 当天新注册用户次日仍...原创 2020-04-05 19:01:51 · 5422 阅读 · 0 评论 -
数据分析进阶 - pandas在数据分析中的应用
前言记得在去年的时候写过一篇关于pandas包的简单使用,具体可见链接,但是经过这段时间的学习或者工作,觉得有点低估了pandas能够在分析中发挥的作用,所以这篇博客将对数据分析整个流程中pandas的使用做一个梳理。分析流程数据读取由于数据存储的形式是多样的,例如在数据库或者导出的文档中,pandas提供了多种读取数据的方法,下面仅讲解最为常见的三种形式import pandas as...原创 2020-04-05 14:52:27 · 423 阅读 · 0 评论 -
Ubuntu上igraph的安装教程
暑假终于到了,距离上一篇博客应该有3个月的时间了,没有学期末的忙忙碌碌,接下来会陆陆续续地回顾自己学过的和将学的东西一并整理成博客~关于igraph因为课程需要,在信息资源管理的课程上曾学过gephi, 它是一款基于JVM的复杂网络分析软件, 其主要用于各种网络和复杂系统,动态和分层图的交互可视化与探测开源工具。 igraph与gephi其实很相似,它是为了进行社会网络分析而创建的一个包,在处理复原创 2017-07-13 14:58:23 · 4675 阅读 · 5 评论 -
数据分析进阶-superset框架内容修饰
APP icon上传logo然后修改config.py# Uncomment to setup an App iconAPP_ICON = "/static/assets/images/logo.png"APP_ICON_WIDTH = 70修改favicon.png 浏览器上的图标models/core.pygrep -nr...原创 2020-03-14 18:47:40 · 954 阅读 · 0 评论 -
数据分析进阶-superset的使用总结
前言最近捣鼓了快一个月的superset框架,通过阅读官方文档+动手实践,从部署服务器到完成自己的第一个看板以及开始初步的二次开发后,对superset的了解更进一步,下面将对整个过程中的感受做总结。前两篇论文涉及superset框架的部署和初步使用,具体可点击博客一和博客二。总结缺陷1. 在安装的过程中,不同版本的superset大部分都出现了依赖包版本不符需要卸载重装的情况,且官方文...原创 2020-03-03 14:37:56 · 3333 阅读 · 0 评论 -
数据分析进阶-superset的使用
前言上一篇博客已在阿里云服务器上部署好了superset,具体可以查看此链接,接下来将动手试一试~superset的使用superset的功能superset支持多种数据库,可以自行配置,但是使用前需要安装对应的包,下面是superset的功能图部署MySQL在阿里云上部署并实现外网的内容,在此就不再赘述,具体可以查看此链接,里面有详细的操作步骤同时也对Navicat的连接中可能出现...原创 2020-02-11 15:48:07 · 886 阅读 · 0 评论 -
数据分析进阶-阿里云服务器部署superset与初步使用
前言https://blog.csdn.net/sinat_37026077/article/details/86628493安装环境:Ubuntu 14.04,Python 2.7.6(1)安装所需的依赖sudo apt-get install build-essential libssl-dev libffi-dev python-dev python-pip libsasl2-dev...原创 2020-02-08 19:26:38 · 1226 阅读 · 0 评论 -
用户画像如何验证正确性?
前言最近在用户画像任务中有个迷茫点,通过从用户行为或者用户数据中为用户量身定制的标签到底准不准确呢?之前对用户画像的初步了解写过一篇博客,其中对画像的验证主要基于模型的线上线下评估。然而,在实际的业务中大多数是依靠业务人员或者分析人员的经验去看待,有很多验证方法又不一定适用实际的业务场景,所以在网上一番搜索后在验证思路上有了一些起色,同时也想把这些内容做些分享,也希望在这个方向上有更多的交流。...原创 2020-01-12 18:43:46 · 1951 阅读 · 0 评论 -
数据分析进阶-分析思维(1)
前言最近在人人都是产品经理看到一篇数据分析思维相关的文章,里面所提出的5个要点对于数据分析的过程有所用处,读完之后也对其构建思维导图~5个要点参考资料:http://www.woshipm.com/data-analysis/3079510.html...原创 2019-12-07 19:25:21 · 238 阅读 · 0 评论 -
数据分析进阶 - 分析方法论
前言由于在工作中经常需要对业务数据进行分析并提供相应的结论和建议,数据分析的能力是一个目前我认为比较重要的点,但在实际操作中总觉得理论体系或者经验不足,接下来会不断地去充实自己,同时也会整理所学到博客之中,望共同学习~业务数据分析流程这是在多次的业务数据分析任务中梳理的较浅层的分析流程,数据分析较多情况下都是为了解决业务瓶颈抑或是决策/活动效果评估,分析要基于对业务的理解之上,才能够较为全...原创 2019-11-13 15:08:53 · 878 阅读 · 0 评论 -
Python之时间类型间的转换
前言因为比较常用到时间类型的转换,但小脑袋总是记不大住,这篇博客主要是梳理个人比较常用的操作,便于后续的翻阅~时间转换# 模块使用import timefrom datetime import datetime, date, timedelata获取日期(datetime类型)# 获取当前时间datetime.now() # datetime.datetime(2019, 8, ...原创 2019-08-25 16:09:03 · 284 阅读 · 0 评论 -
Python数据分析之pandas的使用
前言在数据分析的过程中,pandas库可以对数据进行预处理,在数据清洗阶段可以带来较大的便利,下面主要是针对比较常用的操作做一些记录,方便遗忘后的查找常用操作import pandas as pd 写入文件name = ['小明', '小红']gender = ['男','女']write_dict = { 'name': name, # 以列为key-value 'gend...原创 2019-08-18 20:03:42 · 268 阅读 · 0 评论 -
数据分析之matplotlib的使用
最近经常需要分析数据,才真真觉得这个包的好用,下面就简单示例两种图,作为近段时间的学习记录。直方图import numpy as npimport matplotlib.pyplot as pltimport pandas as pddata = pd.read_csv('test.csv', sep=',')x = data.x # 这里的数据依据具体数据bins = np.l...原创 2019-02-11 13:50:02 · 248 阅读 · 0 评论 -
python数据分析之matplotlib的使用
上一篇完成了对numpy的基础学习,数据分析时需要对数据进行可视化的操作,因此这篇主要讲matplotlib的基础操作以及常用图表的绘制,如:折线图、散点图等# coding=utf-8"""created on:2018/4/23author:DilicelStentarget:learn matplotlib"""import matplotlib.pyplot as plt...原创 2018-04-24 10:59:46 · 458 阅读 · 0 评论 -
Python数据分析之numpy的使用
在完成了自己的一个小目标后,想继续往数据挖掘和数据分析的方向前进,接下来会陆陆续续的完成学习笔记,方便日后的回顾。在之前的博客里有一篇关于numpy的使用:https://blog.csdn.net/totoro1745/article/details/79243465,这里是进行相关的补充~数据分析数据分析致力于在数据中提取有效信息,会使用统计学、机器学习、信号处理、自然语言处理等领域的...原创 2018-04-22 20:28:58 · 293 阅读 · 0 评论