DilicelSten-CSDN博客

原创数据分析进阶 - 使用Pyecharts搭建数据看板

之前尝试过多种数据可视化的方式，包括Tableau、Superset、matplotlib等，在之前的博客中都有所介绍，今天主要介绍如何利用Pyecharts来搭建数据看板~

2022-09-25 11:01:29 2147

linux内置的cron进程能帮我们实现这些需求，cron搭配shell脚本，非常复杂的指令也没有问题。cron介绍我们经常使用的是crontab命令是cron table的简写，它是cron的配置文件，也可以叫它作业列表，我们可以在以下文件夹内找到相关配置文件。/var/spool/cron/ 目录下存放的是每个用户包括root的crontab任务，每个任务以创建者的名字命名/etc/crontab 这个文件负责调度各种管理和维护任务/etc/cron.d/ 这个目录用来存放任何要执行的cro

2022-02-19 14:54:51 324

原创数据分析进阶-Python绘制桑基图

前言通过绘制桑基图来呈现不同时期用户的状态变更~代码import pandas as pddata = pd.read_excel('data-2.xlsx', sheet_name = 'Sheet2')# 取桑基图的节点node = list()each_node = list()for i in data['col1']: each_node.append(i) for i in data['col2']: each_node.append(i)eac

2022-02-16 21:35:41 1625 8

原创数据分析进阶-Python提取Word文档中的表格信息

前言利用此方法针对大量的报名表进行信息提取~安装工具包pip install python-docx表格信息代码注意读取的EXCEL文件只能是docx后缀的噢~若文件太多可利用以下方法批量转化import osimport docximport xlwtimport shutilfrom win32com import client as wc# 把doc文档转成docx文档def convert_word(path, target_dir): filename =

2021-12-30 21:48:13 3870 2

原创数据分析进阶-Excel自动化工具包openpyxl的基础使用

安装工具包pip install openpyxl工作簿的使用注意读取的EXCEL文件只能是xlsx后缀的噢~# 创建工作簿wb = openpyxl.Workbook()wb.save('demo.xlsx') # 在源文件修改后也可以作为另存为的选项# 打开工作簿wb = openpyxl.load_workbook('test.xlsx', data_only=True) # 读取公式设置# 查看sheet名print(wb.sheetnames)# 获取sheet的两

2021-12-25 11:54:03 1095

原创 Windows-设置Python定时任务

定时弹窗提醒环境： win8+Python3.8代码：import tkinter.messageboxtkinter.messagebox.showwarning('警告','该喝水了')设置定时任务：1、打开任务计划程序-创建任务2、填写任务信息3、报错指南可查看任务计划程序库中的上次运行结果，结合提示搜索相应解决方法即可~正常情况下我们的任务计划会有反馈数值，通过它可以判断这个任务计划上次是否运行正常。代码 0 或 0x0：操作成功完成代码 1 或 0x1：调用的

2021-11-28 19:44:31 2221

原创数据分析进阶-Excel绘制分段折线图

前言今天1024程序员节，虽然好像和我没有特别强的关系，写篇博客蹭个勋章吧~Excel绘制分段折线图1、如何凸显折线图中的重点片段（1）首先将需要重点表示的数值提取出来放置新的一行数据中，如图所示，此处将2月、3月、6月与7月的数据独立出来（2）选中3行数据插入折线图即可，后续仅需调整线条的颜色2、用虚线表示预测值（1）若有多个预测值可以独立成行，此处以7月与8月为例（2）选中3行数据插入折线图即可，后续仅需调整线条的线型...

2021-10-24 21:06:19 5158

原创数据分析进阶-cx_Oracle的简单使用

本示例使用pandas+cx_Oracle完成数据的读取和插入import pandas as pdimport cx_Oracle as cx

2021-06-14 19:53:17 415

原创数据分析进阶-基于tsfresh的多变量时间序列聚类

前言上一篇博客主要尝试了基于tslearn的单变量时间序列聚类，多变量时间序列的方法经过一番搜索也没有找到合适的方式，因此考虑借助强大的时间序列特征提取工具tsfresh与KMeans尝试多变量时间序列的聚类实验基于日消费总额+日消费次数的时间序列聚类一、tsfreshtsfresh可以提取的时间序列特征数量相当全面，其中对特征的中文解读建议查看以下两篇博客：https://www.jianshu.com/p/de2f7d333b9fhttps://www.jianshu.com/p/073f

2021-06-13 19:19:00 2093 19

原创数据分析进阶-基于tslearn的单变量时间序列聚类

前言最近受一篇2015年文章《时间序列用户生命周期的聚类方法》的启发，阅读了很多时间序列聚类相关的方法，用消费行为的时间序列尝试去对用户行为进行分群，虽然现阶段的效果不如预期，就当总结希望后续能有所交流~基于日消费总额的时间序列聚类为了更好地保留用户消费行为时间序列特征（包含全局特征&局部特征），采用基于时间序列形状的方式以计算序列相似度进行用户行为区分，其中尝试了两个方向：一、方法说明1.DTWDTW即Dynamic Time Warping，是动态时间规整算法，利用DTW的原因是用户

2021-06-13 18:50:28 3805 12

原创数据分析进阶 - 基于聚类的用户标签构建

前言在用户画像标签体系建设的过程中，大部分标签都是以规则映射的方式构建，当规则难以梳理时，可以考虑用聚类模型进行划分，再用决策树的方式输出规则，这里仅简单分享，欢迎交流~示例确定目的对用户消费行为进行划分客群（这里不使用RFM模型）特征选择当月各消费区间消费频次当月消费均值当月消费方差当月日消费频次预估聚类趋势这里可直接参考之前的博客: https://blog.csdn.net/Totoro1745/article/details/112132472聚类手肘法确定聚类个数

2021-05-09 20:52:19 822

原创数据分析进阶 - 相关分析（卡方检验）

前言上一篇博客是相关分析中的皮尔逊相关系数，具体可见链接：https://blog.csdn.net/Totoro1745/article/details/114748542?spm=1001.2014.3001.5502卡方检验皮尔逊相关系数用于两个连续性变量，当变量为两个无序分类变量时就需要用卡方检验。它是一种基于卡方分布的假设检验方法，根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题。主要应用于分类变量，根据样本数据推断总体分布与期望分布是否有显著差异或推断两个分类变量是否相关或相

2021-03-16 21:12:32 6866 1

原创数据分析进阶 - 相关分析（皮尔逊相关系数）

相关分析相关分析是研究两个或两个以上处于同等地位的随机变量间的相关关系的统计分析方法。通过对不同特征或数据间的关系进行分析，发现其中关键影响及驱动因素。在实际的工作应用中，常常用于特征的发现与选择。皮尔逊相关系数皮尔逊相关系数( Pearson correlation coefficient），又称皮尔逊积矩相关系数（Pearson product-moment correlation coefficient，简称 PPMCC或PCCs），是用于度量两个变量X和Y之间的相关（线性相关），其值介于-1与

2021-03-13 15:41:41 8778

原创数据分析进阶 - 霍普金斯统计量预估聚类趋势

霍普金斯统计量原理在给数据集做聚类之前，我们需要事先评估数据集的聚类趋势，要求数据是非均匀分布，均匀分布的数据集没有聚类的意义。霍普金斯统计量是一种空间统计量，用于检验空间分布的变量的空间随机性，从而判断数据是否可以聚类。计算步骤：均匀地从D的空间中抽取n个点p1,p2,…pn,对每个点pi(1≤i≤n),找出pi在D中的最近邻，并令xi为pi与它在D中的最近邻之间的距离，即均匀地从D的空间中抽取n个点q1,q2,…qn,对每个点qi(1≤i≤n),找出qi在D-{qi}中的最近邻，并令

2021-01-03 11:30:15 6896 5

原创 Linux - nohup和&后台运行Python脚本

前言有时候Python脚本运行时间过长，可以使用后台运行的方式，本文就简单讲解下如何在Linux服务器上后台运行脚本~后台运行命令nohup用途：不挂断地运行命令语法：nohup Command [ Arg … ] [　& ]无论是否将 nohup 命令的输出重定向到终端，输出都将附加到当前目录的 nohup.out 文件中。如果当前目录的 nohup.out 文件不可写，输出重定向到 $HOME/nohup.out 文件中。如果没有文件能创建或打开以用于追加，那么 Command

2021-01-01 19:38:45 918

原创数据分析进阶 - Excel函数Phonetic

前言之前用到过这个函数，应用在SQL查询的where子句里，但是一阵子没用脑袋就记不住了，所以借机记录下来~Phonetic函数PHONETIC函数可以把EXCEL一列字符放在一个单元格，这里举个小例子：1.首先有一列数据，如下所示，想让其以逗号为间隔变成一行2.给每行数据加个逗号，并且选择性粘贴为数值3.利用phonetic函数变成一行字符串就可以了...

2020-12-29 21:23:21 3039

原创数据分析进阶 - 评分模型权重计算方法

前言在之前的经历里遇到一些需要确定各部分权重来得出最终结果的问题，例如用户游戏偏好得分的计算、用户价值模型的构建以及贡献度的计算等，所以这篇博客就讲讲如何确定权重~权重计算方法权重是指某因素在整体评价中的相对重要程度。权重越高，则该因素越重要。权重有两个特点：每个因素的权重在0-1之间所有隐私的权重和为1权重的确定方法有很多，主要分为以下两大类：主观赋权法客观赋权法思路与优缺点由专家根据经验进行主观判断得到权数，然后对指标进行综合评价。这是一种定性方法，易操作，但主

2020-12-27 20:19:17 13214

原创爬虫实战 - 如何爬取B站视频评论？

步骤（本次爬虫仅以一个视频为示例：链接）查找评论请求api解析URL去掉第一个和最后一个参数可得评论URL，即：https://api.bilibili.com/x/v2/reply?jsonp=jsonp&pn=1&type=1&oid=585286365&sort=2【其中pn是页码；sort控制排序顺序，1按时间排序，2按热度排序；oid代码视频编号】- 开始敲代码import requestsheader = {"User-Agent": "M

2020-11-21 21:19:39 7908 8

原创数据分析特辑 - 数仓初入门

前言完全没想到在工作中也会有接触到数仓的一天，这里仅仅记录下在学习过程中一些特别入门的知识点，也帮自己总结总结~为什么要建设数仓方便沟通交流提高排查问题的效率提高数据开发的效率代码复用、表复用等复杂任务解耦（分散到各层或层内的不同表）提高数据质量，避免数据口径不一致等问题减少存储成本和计算成本数据库与数据仓库的区别数据库是面向事务的设计，数据仓库是面向主题的设计数据库一般服务于业务系统，数据仓库一般是服务于分析系统数据库一般存储在线交易数据，数据仓库存储的一般是历史数据数据

2020-08-23 16:16:46 461

原创数据分析特辑 - 如何用Tableau做一个数据故事？

前言挺多公司都有使用Tableau这个可视化软件，因为在分析的进阶阶段所以自己抽空在B站（不得不说，B站是个不错的学习网站）跟着学习视频实操了一波，大概了解了一些图表的绘制以及一些升级操作。刚好有个契机所以用了Tableau从头到尾弄了一个数据故事，这里主要讲下心路历程吧，作为自己绘制第一个数据故事存在的不足还是比较多的，也方便自己以后再次复盘。Tableau故事绘制这里其实不会讲太多Tableau的实际操作，更多的还是对整体步骤层面的思考~这个绘制过程是以课题式的形式开展的，从数据集的选择到最终整体

2020-08-22 19:42:10 3844

原创数据分析特辑 - 如何找到想要的数据集？

前言数据分析最首要的就是数据集了，有挺多文章有对数据集的查找方式都有所讲解，但是个人感觉还是整合比较好的方式会比较方便，所以这篇博客相对于是资源干货吧，后续会不断地更新数据的收集方式以及更新数据集的百度云网盘，供各位有需要分析的朋友们使用~公开数据搜集方式1.学习网站第一个最推荐的就是学习网站了，其中数据分析专项课程中会提供一些可以公开使用的数据集~PS：不得不说B站是个全能网站，找到相关分析课程后看下评论区，大多数会有数据集下载链接~Courserahttps://www.coursera

2020-08-15 21:07:06 2411

原创用户画像应用中的常见误区

前言之前对用户画像已经有两篇博客输出，分别是一步一步认识用户画像和用户画像如何验证正确性，这两篇更多的是讲解用户画像的过程性问题，在实际业务应用中可能遇到的误区是本篇博客主要的内容。用户画像误区1.画像与业务场景关联度不高在“用户画像”概念之下，很多时候为了跟风而忘了使用的本质是为了什么，因此在未明确应用场景的前提下就开始建设用户画像平台，结果大概率是缺少使用者，导致一系列无用功的产生或者无限复工。2.重形式，轻实效很多时候“用户画像”仅仅是数字+可视化的产物，徒有酷炫的外表却缺乏实质，在实际业

2020-06-21 11:26:46 1502

原创错误记录 - 训练深度学习模型loss为nan的原因

前言最近师弟在实际业务中训练深度学习模型时遇到个问题：在大样本训练模型时候的loss为nan，尝试了各种方法也没有什么起色，最终一起分析了一番拟确定了原因，这边就分享下可能的原因可供分析调整~原因1.模型问题网络结构设计问题通过弱化场景，简化样本的方式去检查是否为网络的问题损失函数设置不合理激活函数选择不当参数初始化问题2.数据问题数据需归一化减均值除方差加入normalization(BN\L2 norm等)数据标签不在[0, num_class

2020-06-13 10:52:26 1041 3

原创 SQL优化系列 - MySQL表设计时要注意什么？

前言今天是5月的最后一天了，一边听着五月天的线上演唱会，一边整理下学过SQL相关的内容，之前有篇是针对SQL的知识点：https://blog.csdn.net/Totoro1745/article/details/106036161，接下来的优化系列也会不断的进行更新~MySQL表设计时要注意什么？1.为什么一定要设一个主键？在不设主键的情况下，innodb也会生成一个隐藏列，作为自增主键。自己指定一个主键，在有些情况下，就能显式的用上主键索引，提高查询效率~2.主键为什么最好用自增呢?inn

2020-05-31 20:53:56 494

原创 SQLZOO附加题练习 - Window functions

前言SQLZOO里面的题还是比较适合初学者的，这里仅仅作为巩固基础，同时因为这道题目前搜不到相应的答案，所以做个小小的分享~PS：非小白玩家可以去LeetCode、牛客网、CodeWars上刷题更佳题目General Elections were held in the UK in 2015 and 2017. Every citizen votes in a constituency. The candidate who gains the most votes becomes MP for th

2020-05-23 17:11:14 566

原创错误记录 - ValueError unsupported format character Y (0x59) at index 53

前言发现很多时候遇到挺多报错记录的，觉得可以弄个错误记录特辑来整理下遇到的问题以及相应的解决方法~错误复述代码环境：Python3代码用途：执行SQL语句错误代码：# 仅为实例sql = "select date_format(get_time, '%Y-%m-%d') as stat_day, uid from table where range_field between %s and %s" % (range1, range2)报错信息：ValueError: unsupporte

2020-05-19 11:29:25 1831

原创数据分析特辑-如何推进与业务方的沟通？

前言作为数据分析师或者参与到数据分析项目中的朋友，应该少不了与业务方打交道。最近在这个方面上颇有感触，结合自己为数不多的项目经验以及网上相关文章的点拨，在此做一点点的思考分享，以下均为个人想法，也希望有类似经验的朋友们可以分享自己的想法或者意见~浅谈数据分析其实对数据分析的解释是因人而异的，都是自己的经验总结凝练出来的~在我看来，数据分析是在“道与术”的框架下从从可量化的现象中去寻找背后的数据关系，再去追溯可能的原因、结果等并提出合理的解决方法或建议。所谓“道”是在思维层面上的，即行业背景、业务知

2020-05-17 19:33:38 1201

空空如也

空空如也