自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Totoro1745的博客

Dream it possible

  • 博客(95)
  • 收藏
  • 关注

原创 数据分析进阶 - 使用Pyecharts搭建数据看板

之前尝试过多种数据可视化的方式,包括Tableau、Superset、matplotlib等,在之前的博客中都有所介绍,今天主要介绍如何利用Pyecharts来搭建数据看板~

2022-09-25 11:01:29 1741 1

原创 数据分析进阶-Python批量解压加密文件

Python批量解压加密文件

2022-06-16 21:58:19 584

转载 Linux-crontab定时任务

linux内置的cron进程能帮我们实现这些需求,cron搭配shell脚本,非常复杂的指令也没有问题。cron介绍我们经常使用的是crontab命令是cron table的简写,它是cron的配置文件,也可以叫它作业列表,我们可以在以下文件夹内找到相关配置文件。/var/spool/cron/ 目录下存放的是每个用户包括root的crontab任务,每个任务以创建者的名字命名/etc/crontab 这个文件负责调度各种管理和维护任务/etc/cron.d/ 这个目录用来存放任何要执行的cro

2022-02-19 14:54:51 213

原创 数据分析进阶-Python绘制桑基图

前言通过绘制桑基图来呈现不同时期用户的状态变更~代码import pandas as pddata = pd.read_excel('data-2.xlsx', sheet_name = 'Sheet2')# 取桑基图的节点node = list()each_node = list()for i in data['col1']: each_node.append(i) for i in data['col2']: each_node.append(i)eac

2022-02-16 21:35:41 1303 7

原创 数据分析进阶-Python提取Word文档中的表格信息

前言利用此方法针对大量的报名表进行信息提取~安装工具包pip install python-docx表格信息代码注意读取的EXCEL文件只能是docx后缀的噢~若文件太多可利用以下方法批量转化import osimport docximport xlwtimport shutilfrom win32com import client as wc# 把doc文档转成docx文档def convert_word(path, target_dir): filename =

2021-12-30 21:48:13 3465 1

原创 数据分析进阶-Excel自动化工具包openpyxl的基础使用

安装工具包pip install openpyxl工作簿的使用注意读取的EXCEL文件只能是xlsx后缀的噢~# 创建工作簿wb = openpyxl.Workbook()wb.save('demo.xlsx') # 在源文件修改后也可以作为另存为的选项# 打开工作簿wb = openpyxl.load_workbook('test.xlsx', data_only=True) # 读取公式设置# 查看sheet名print(wb.sheetnames)# 获取sheet的两

2021-12-25 11:54:03 972

原创 Windows-设置Python定时任务

定时弹窗提醒环境: win8+Python3.8代码:import tkinter.messageboxtkinter.messagebox.showwarning('警告','该喝水了')设置定时任务:1、打开任务计划程序-创建任务2、填写任务信息3、报错指南可查看任务计划程序库中的上次运行结果,结合提示搜索相应解决方法即可~正常情况下我们的任务计划会有反馈数值,通过它可以判断这个任务计划上次是否运行正常。代码 0 或 0x0:操作成功完成代码 1 或 0x1:调用的

2021-11-28 19:44:31 1297

原创 数据分析进阶-Excel绘制分段折线图

前言今天1024程序员节,虽然好像和我没有特别强的关系,写篇博客蹭个勋章吧~Excel绘制分段折线图1、如何凸显折线图中的重点片段(1)首先将需要重点表示的数值提取出来放置新的一行数据中,如图所示,此处将2月、3月、6月与7月的数据独立出来(2)选中3行数据插入折线图即可,后续仅需调整线条的颜色2、用虚线表示预测值(1)若有多个预测值可以独立成行,此处以7月与8月为例(2)选中3行数据插入折线图即可,后续仅需调整线条的线型...

2021-10-24 21:06:19 4568

原创 数据分析进阶-cx_Oracle的简单使用

本示例使用pandas+cx_Oracle完成数据的读取和插入import pandas as pdimport cx_Oracle as cx

2021-06-14 19:53:17 320

原创 数据分析进阶-基于tsfresh的多变量时间序列聚类

前言上一篇博客主要尝试了基于tslearn的单变量时间序列聚类,多变量时间序列的方法经过一番搜索也没有找到合适的方式,因此考虑借助强大的时间序列特征提取工具tsfresh与KMeans尝试多变量时间序列的聚类实验基于日消费总额+日消费次数的时间序列聚类一、tsfreshtsfresh可以提取的时间序列特征数量相当全面,其中对特征的中文解读建议查看以下两篇博客:https://www.jianshu.com/p/de2f7d333b9fhttps://www.jianshu.com/p/073f

2021-06-13 19:19:00 1849 19

原创 数据分析进阶-基于tslearn的单变量时间序列聚类

前言最近受一篇2015年文章《时间序列用户生命周期的聚类方法》的启发,阅读了很多时间序列聚类相关的方法,用消费行为的时间序列尝试去对用户行为进行分群,虽然现阶段的效果不如预期,就当总结希望后续能有所交流~基于日消费总额的时间序列聚类为了更好地保留用户消费行为时间序列特征(包含全局特征&局部特征),采用基于时间序列形状的方式以计算序列相似度进行用户行为区分,其中尝试了两个方向:一、方法说明1.DTWDTW即Dynamic Time Warping,是动态时间规整算法,利用DTW的原因是用户

2021-06-13 18:50:28 3401 12

原创 数据分析进阶 - 基于聚类的用户标签构建

前言在用户画像标签体系建设的过程中,大部分标签都是以规则映射的方式构建,当规则难以梳理时,可以考虑用聚类模型进行划分,再用决策树的方式输出规则,这里仅简单分享,欢迎交流~示例确定目的对用户消费行为进行划分客群(这里不使用RFM模型)特征选择当月各消费区间消费频次当月消费均值当月消费方差当月日消费频次预估聚类趋势这里可直接参考之前的博客: https://blog.csdn.net/Totoro1745/article/details/112132472聚类手肘法确定聚类个数

2021-05-09 20:52:19 625

原创 数据分析进阶 - 相关分析(卡方检验)

前言上一篇博客是相关分析中的皮尔逊相关系数,具体可见链接:https://blog.csdn.net/Totoro1745/article/details/114748542?spm=1001.2014.3001.5502卡方检验皮尔逊相关系数用于两个连续性变量,当变量为两个无序分类变量时就需要用卡方检验。它是一种基于卡方分布的假设检验方法,根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题。主要应用于分类变量,根据样本数据推断总体分布与期望分布是否有显著差异或推断两个分类变量是否相关或相

2021-03-16 21:12:32 6328 1

原创 数据分析进阶 - 相关分析(皮尔逊相关系数)

相关分析相关分析是研究两个或两个以上处于同等地位的随机变量间的相关关系的统计分析方法。通过对不同特征或数据间的关系进行分析,发现其中关键影响及驱动因素。在实际的工作应用中,常常用于特征的发现与选择。皮尔逊相关系数皮尔逊相关系数( Pearson correlation coefficient),又称皮尔逊积矩相关系数(Pearson product-moment correlation coefficient,简称 PPMCC或PCCs),是用于度量两个变量X和Y之间的相关(线性相关),其值介于-1与

2021-03-13 15:41:41 7941

原创 数据分析进阶 - 霍普金斯统计量预估聚类趋势

霍普金斯统计量原理在给数据集做聚类之前,我们需要事先评估数据集的聚类趋势,要求数据是非均匀分布,均匀分布的数据集没有聚类的意义。霍普金斯统计量是一种空间统计量,用于检验空间分布的变量的空间随机性,从而判断数据是否可以聚类。计算步骤:均匀地从D的空间中抽取n个点p1,p2,…pn,对每个点pi(1≤i≤n),找出pi在D中的最近邻,并令xi为pi与它在D中的最近邻之间的距离,即均匀地从D的空间中抽取n个点q1,q2,…qn,对每个点qi(1≤i≤n),找出qi在D-{qi}中的最近邻,并令

2021-01-03 11:30:15 6203 5

原创 Linux - nohup和&后台运行Python脚本

前言有时候Python脚本运行时间过长,可以使用后台运行的方式,本文就简单讲解下如何在Linux服务器上后台运行脚本~后台运行命令nohup用途:不挂断地运行命令语法:nohup Command [ Arg … ] [ & ]无论是否将 nohup 命令的输出重定向到终端,输出都将附加到当前目录的 nohup.out 文件中。如果当前目录的 nohup.out 文件不可写,输出重定向到 $HOME/nohup.out 文件中。如果没有文件能创建或打开以用于追加,那么 Command

2021-01-01 19:38:45 790

原创 数据分析进阶 - Excel函数Phonetic

前言之前用到过这个函数,应用在SQL查询的where子句里,但是一阵子没用脑袋就记不住了,所以借机记录下来~Phonetic函数PHONETIC函数可以把EXCEL一列字符放在一个单元格,这里举个小例子:1.首先有一列数据,如下所示,想让其以逗号为间隔变成一行2.给每行数据加个逗号,并且选择性粘贴为数值3.利用phonetic函数变成一行字符串就可以了...

2020-12-29 21:23:21 2532

原创 数据分析进阶 - 评分模型权重计算方法

前言在之前的经历里遇到一些需要确定各部分权重来得出最终结果的问题,例如用户游戏偏好得分的计算、用户价值模型的构建以及贡献度的计算等,所以这篇博客就讲讲如何确定权重~权重计算方法权重是指某因素在整体评价中的相对重要程度。权重越高,则该因素越重要。权重有两个特点:每个因素的权重在0-1之间所有隐私的权重和为1权重的确定方法有很多,主要分为以下两大类:主观赋权法客观赋权法思路与优缺点由专家根据经验进行主观判断得到权数,然后对指标进行综合评价。这是一种定性方法,易操作,但主

2020-12-27 20:19:17 12115

原创 爬虫实战 - 如何爬取B站视频评论?

步骤(本次爬虫仅以一个视频为示例:链接)查找评论请求api解析URL去掉第一个和最后一个参数可得评论URL,即:https://api.bilibili.com/x/v2/reply?jsonp=jsonp&pn=1&type=1&oid=585286365&sort=2【其中pn是页码;sort控制排序顺序,1按时间排序,2按热度排序;oid代码视频编号】- 开始敲代码import requestsheader = {"User-Agent": "M

2020-11-21 21:19:39 7354 8

原创 数据分析特辑 - 数仓初入门

前言完全没想到在工作中也会有接触到数仓的一天,这里仅仅记录下在学习过程中一些特别入门的知识点,也帮自己总结总结~为什么要建设数仓方便沟通交流提高排查问题的效率提高数据开发的效率代码复用、表复用等复杂任务解耦(分散到各层或层内的不同表)提高数据质量,避免数据口径不一致等问题减少存储成本和计算成本数据库与数据仓库的区别数据库是面向事务的设计,数据仓库是面向主题的设计数据库一般服务于业务系统,数据仓库一般是服务于分析系统数据库一般存储在线交易数据,数据仓库存储的一般是历史数据数据

2020-08-23 16:16:46 366

原创 数据分析特辑 - 如何用Tableau做一个数据故事?

前言挺多公司都有使用Tableau这个可视化软件,因为在分析的进阶阶段所以自己抽空在B站(不得不说,B站是个不错的学习网站)跟着学习视频实操了一波,大概了解了一些图表的绘制以及一些升级操作。刚好有个契机所以用了Tableau从头到尾弄了一个数据故事,这里主要讲下心路历程吧,作为自己绘制第一个数据故事存在的不足还是比较多的,也方便自己以后再次复盘。Tableau故事绘制这里其实不会讲太多Tableau的实际操作,更多的还是对整体步骤层面的思考~这个绘制过程是以课题式的形式开展的,从数据集的选择到最终整体

2020-08-22 19:42:10 3393

原创 数据分析特辑 - 如何找到想要的数据集?

前言数据分析最首要的就是数据集了,有挺多文章有对数据集的查找方式都有所讲解,但是个人感觉还是整合比较好的方式会比较方便,所以这篇博客相对于是资源干货吧,后续会不断地更新数据的收集方式以及更新数据集的百度云网盘,供各位有需要分析的朋友们使用~公开数据搜集方式1.学习网站第一个最推荐的就是学习网站了,其中数据分析专项课程中会提供一些可以公开使用的数据集~PS:不得不说B站是个全能网站,找到相关分析课程后看下评论区,大多数会有数据集下载链接~Courserahttps://www.coursera

2020-08-15 21:07:06 2011

原创 用户画像应用中的常见误区

前言之前对用户画像已经有两篇博客输出,分别是一步一步认识用户画像和用户画像如何验证正确性,这两篇更多的是讲解用户画像的过程性问题,在实际业务应用中可能遇到的误区是本篇博客主要的内容。用户画像误区1.画像与业务场景关联度不高在“用户画像”概念之下,很多时候为了跟风而忘了使用的本质是为了什么,因此在未明确应用场景的前提下就开始建设用户画像平台,结果大概率是缺少使用者,导致一系列无用功的产生或者无限复工。2.重形式,轻实效很多时候“用户画像”仅仅是数字+可视化的产物,徒有酷炫的外表却缺乏实质,在实际业

2020-06-21 11:26:46 1286

原创 错误记录 - 训练深度学习模型loss为nan的原因

前言最近师弟在实际业务中训练深度学习模型时遇到个问题:在大样本训练模型时候的loss为nan,尝试了各种方法也没有什么起色,最终一起分析了一番拟确定了原因,这边就分享下可能的原因可供分析调整~原因1.模型问题网络结构设计问题通过弱化场景,简化样本的方式去检查是否为网络的问题损失函数设置不合理激活函数选择不当参数初始化问题2.数据问题数据需归一化减均值除方差加入normalization(BN\L2 norm等)数据标签不在[0, num_class

2020-06-13 10:52:26 800 3

原创 SQL优化系列 - MySQL表设计时要注意什么?

前言今天是5月的最后一天了,一边听着五月天的线上演唱会,一边整理下学过SQL相关的内容,之前有篇是针对SQL的知识点:https://blog.csdn.net/Totoro1745/article/details/106036161,接下来的优化系列也会不断的进行更新~MySQL表设计时要注意什么?1.为什么一定要设一个主键?在不设主键的情况下,innodb也会生成一个隐藏列,作为自增主键。自己指定一个主键,在有些情况下,就能显式的用上主键索引,提高查询效率~2.主键为什么最好用自增呢?inn

2020-05-31 20:53:56 385

原创 SQLZOO附加题练习 - Window functions

前言SQLZOO里面的题还是比较适合初学者的,这里仅仅作为巩固基础,同时因为这道题目前搜不到相应的答案,所以做个小小的分享~PS:非小白玩家可以去LeetCode、牛客网、CodeWars上刷题更佳题目General Elections were held in the UK in 2015 and 2017. Every citizen votes in a constituency. The candidate who gains the most votes becomes MP for th

2020-05-23 17:11:14 441

原创 错误记录 - ValueError unsupported format character Y (0x59) at index 53

前言发现很多时候遇到挺多报错记录的,觉得可以弄个错误记录特辑来整理下遇到的问题以及相应的解决方法~错误复述代码环境:Python3代码用途:执行SQL语句错误代码:# 仅为实例sql = "select date_format(get_time, '%Y-%m-%d') as stat_day, uid from table where range_field between %s and %s" % (range1, range2)报错信息:ValueError: unsupporte

2020-05-19 11:29:25 1686

原创 数据分析特辑-如何推进与业务方的沟通?

前言作为数据分析师或者参与到数据分析项目中的朋友,应该少不了与业务方打交道。最近在这个方面上颇有感触,结合自己为数不多的项目经验以及网上相关文章的点拨,在此做一点点的思考分享,以下均为个人想法,也希望有类似经验的朋友们可以分享自己的想法或者意见~浅谈数据分析其实对数据分析的解释是因人而异的,都是自己的经验总结凝练出来的~在我看来,数据分析是在“道与术”的框架下从从可量化的现象中去寻找背后的数据关系,再去追溯可能的原因、结果等并提出合理的解决方法或建议。所谓“道”是在思维层面上的,即行业背景、业务知

2020-05-17 19:33:38 994

原创 数据分析进阶 - 关于SQL的知识点

前言SQL作为实际工作中的一部分,总是需要与它打交道,但总有种一知半解的感觉,所以此博客就作为学习笔记便于后续的回顾(写博客能够让自己记得更牢- -),也会根据工作实际遇到的场景来不断地补充…(如果有不对的地方欢迎指出)1. in和exists的区别in和exists用于子查询中,例如select field1from test1 where field2 in (select field2 from test2 )select field1from test1 awhere exis

2020-05-10 20:47:10 306

原创 分析思维锻炼 - 次日留存率下降怎么分析?

前言个人觉得数据分析重要的在于思维层面,奈何在这方面的训练不是很多。因此,后续将多多锻炼并整理成博客分享(内容仅为个人思考,会不断进行修正)分析思路明确问题# 在实际工作中通过沟通进行确定问题:次日留存率下降怎么分析?问题中不明确项:什么留存率 + 下降标准(对比什么)# 这里仅仅作为一个思维锻炼,因此我将问题简单化问题:次日新增用户留存率下降公式 = 当天新注册用户次日仍...

2020-04-05 19:01:51 5600

原创 数据分析进阶 - pandas在数据分析中的应用

前言记得在去年的时候写过一篇关于pandas包的简单使用,具体可见链接,但是经过这段时间的学习或者工作,觉得有点低估了pandas能够在分析中发挥的作用,所以这篇博客将对数据分析整个流程中pandas的使用做一个梳理。分析流程数据读取由于数据存储的形式是多样的,例如在数据库或者导出的文档中,pandas提供了多种读取数据的方法,下面仅讲解最为常见的三种形式import pandas as...

2020-04-05 14:52:27 452

原创 数据分析进阶-superset框架内容修饰

APP icon上传logo然后修改config.py# Uncomment to setup an App iconAPP_ICON = "/static/assets/images/logo.png"APP_ICON_WIDTH = 70修改favicon.png 浏览器上的图标models/core.pygrep -nr...

2020-03-14 18:47:40 1051

原创 数据分析进阶-superset的使用总结

前言最近捣鼓了快一个月的superset框架,通过阅读官方文档+动手实践,从部署服务器到完成自己的第一个看板以及开始初步的二次开发后,对superset的了解更进一步,下面将对整个过程中的感受做总结。前两篇论文涉及superset框架的部署和初步使用,具体可点击博客一和博客二。总结缺陷1. 在安装的过程中,不同版本的superset大部分都出现了依赖包版本不符需要卸载重装的情况,且官方文...

2020-03-03 14:37:56 3446

原创 数据分析进阶-superset的使用

前言上一篇博客已在阿里云服务器上部署好了superset,具体可以查看此链接,接下来将动手试一试~superset的使用superset的功能superset支持多种数据库,可以自行配置,但是使用前需要安装对应的包,下面是superset的功能图部署MySQL在阿里云上部署并实现外网的内容,在此就不再赘述,具体可以查看此链接,里面有详细的操作步骤同时也对Navicat的连接中可能出现...

2020-02-11 15:48:07 935

原创 数据分析进阶-阿里云服务器部署superset与初步使用

前言https://blog.csdn.net/sinat_37026077/article/details/86628493安装环境:Ubuntu 14.04,Python 2.7.6(1)安装所需的依赖sudo apt-get install build-essential libssl-dev libffi-dev python-dev python-pip libsasl2-dev...

2020-02-08 19:26:38 1277

原创 用户画像如何验证正确性?

前言最近在用户画像任务中有个迷茫点,通过从用户行为或者用户数据中为用户量身定制的标签到底准不准确呢?之前对用户画像的初步了解写过一篇博客,其中对画像的验证主要基于模型的线上线下评估。然而,在实际的业务中大多数是依靠业务人员或者分析人员的经验去看待,有很多验证方法又不一定适用实际的业务场景,所以在网上一番搜索后在验证思路上有了一些起色,同时也想把这些内容做些分享,也希望在这个方向上有更多的交流。...

2020-01-12 18:43:46 2071

原创 数据分析进阶-分析思维(1)

前言最近在人人都是产品经理看到一篇数据分析思维相关的文章,里面所提出的5个要点对于数据分析的过程有所用处,读完之后也对其构建思维导图~5个要点参考资料:http://www.woshipm.com/data-analysis/3079510.html...

2019-12-07 19:25:21 257

原创 NLPCC2019 - User-Characteristic Enhanced Model for Fake News Detection in Social Media

前言在大四上学期的一门课上研读了一篇关于虚假新闻检测的顶会论文,后对这个领域产生了兴趣,在毕业论文选择了社交媒体上的虚假新闻检测来作为题目,最终论文成果有幸被NLPCC2019会议所收录,算是科研菜鸡的一个小小进步吧~PS之前相关的博客:论文研读博客虚假新闻相关数据集虚假新闻近几年文献列表论文方法方法分类在研读了虚假新闻领域相关的方法后,可以了解到目前领域大致有三个方向:一是基于新...

2019-11-19 21:35:07 1097

原创 Python之获取上月的第一天以及最后一天

from datetime import datetime, datefrom dateutil.relativedelta import relativedeltathis_month = date.today()last_month = date.today() - relativedelta(months=1)first_day = (date(last_month.year, l...

2019-11-13 15:30:20 790

原创 数据分析进阶 - 分析方法论

前言由于在工作中经常需要对业务数据进行分析并提供相应的结论和建议,数据分析的能力是一个目前我认为比较重要的点,但在实际操作中总觉得理论体系或者经验不足,接下来会不断地去充实自己,同时也会整理所学到博客之中,望共同学习~业务数据分析流程这是在多次的业务数据分析任务中梳理的较浅层的分析流程,数据分析较多情况下都是为了解决业务瓶颈抑或是决策/活动效果评估,分析要基于对业务的理解之上,才能够较为全...

2019-11-13 15:08:53 928

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除