数据分析
飞羽喂马
这个作者很懒,什么都没留下…
展开
-
pandas 读取excel、一次性写入多个sheet、原有文件追加sheet
pandas 的DataFrame 数据结构与excel中的数据形式极为相似,因此对于excel数据的读取和输出使用pandas再适合不过了,因此就涉及到了pandas对于excel文件的读取、写入一个sheet、写入多个sheet、追加sheet等操作。原创 2020-03-06 12:39:42 · 50110 阅读 · 10 评论 -
pyecharts 十种图形演示
Echarts 是一个由百度开源的数据可视化,凭借着良好的交互性,精巧的图表设计,得到了众多开发者的认可。而 Python 是一门富有表达力的语言,很适合用于数据处理。当数据分析遇上数据可视化时,pyecharts 诞生了。原创 2020-03-06 11:21:58 · 3440 阅读 · 0 评论 -
DataFrame 新增列的五种方法
本文总结了平时对 pandas.DataFrame 进行新增列操作的五种方法:insert、reindex、loc、obj['col']、concat,并用代码演示出来。原创 2019-10-24 12:06:23 · 276949 阅读 · 8 评论 -
Python 的 TOP50 数据可视化 图形(包含代码)
使用python中最有用的50个数据可视化图形,并且用代码清晰的演示了使用matplotlib和seaborn库的过程并且展示了最终的结果。翻译 2019-10-16 20:34:01 · 10651 阅读 · 1 评论 -
pandas Multiindex 对层次化索引进行切片或索引
选取 DataFrame 使用正常的 loc 或 iloc 索引数据,但是对于 Multiindex 层次化索引该怎么索引数据呢?原创 2019-10-09 21:18:05 · 8963 阅读 · 1 评论 -
pandas.read_sql 使用参数进行数据查询
pandas.read_sql 可以在数据库中执行指定的SQL语句查询或对指定的整张表进行查询,以DataFrame 的类型返回查询结果,这是在跟数据库进行交互操作时很重要的一步——既读取数据,还返回DataFrame方便处理。原创 2019-09-20 12:43:00 · 19545 阅读 · 2 评论 -
Tableau 跟着固定成员移动的参考线
这里不仅展示了如何创建一条跟着固定成员移动的参考线还会详细介绍整个操作流程。操作目的:创建一个参考线,在选择了维度、指标、筛选器之后,参考线的值是维度下某固定成员的指标值,不是最大值、最小值、平均值、固定值等这些tableau上可见的值,而是随着筛选器的变化,参考线也会变成筛选器选定值下某固定成员的值。原创 2019-08-08 11:54:33 · 2500 阅读 · 1 评论 -
PyQt5 创建数据处理小工具(pycharm+pyqt5+pyinstaller)
使用 pyqt+pyinstall 建立数据处理小工具,让非数据分析人员可以一键获取想要的数据,不再麻烦我们数据分析师。原创 2019-07-23 20:35:17 · 1646 阅读 · 0 评论 -
如何才能拥有自己的数据技术工匠?
在杭州,只要你是做数据的,阿里等互联网公司绝对是绕不过去的,现在到处都可以看到它们的身影,大家都说杭州互联网氛围很好,人才好找,但实际竞争激烈,各种猎头,各种社招,各种关系,无孔不入。从事大数据工作以来,团队成员的社会化流动逐渐成了常态化的事情,今天就来谈一谈最近的几点思考。如果你的数据团队没有被外部威胁到过,要么是你的业务偏居一隅,要么就是数据技术的落后,大多数时候,我们企业内部的数据人才...转载 2019-04-18 12:09:59 · 290 阅读 · 0 评论 -
navicat 导入xlsx格式 报错 “**无法打开文件错误**”
多次丛navicat 导入excel数据,主要是xlsx的格式多(因为这个数据量的范围很广),但是经常报“无法打开文件错误”的问题,之前的解决方法是保存为csv或xls格式,但是最近发现了问题并有了解决方法:原因:缺少驱动,需要去微软官网下载AccessDatebaseEngine,位数最好和navicat,office一致。这个是传送门:https://www.microsoft.com/z...转载 2019-03-06 15:27:58 · 2641 阅读 · 0 评论 -
matlibplot.pyplot 画图 axes.bar() x轴默认排序解决方法
问题描述使用matlibplot.pyplot中的axes.bar()作图后x轴是默认排序的,这其实打乱了我一开始数据中的排序,是我不想要的,我想要的是x轴按照我数据中的原始顺序排序。import matplotlib.pyplot as pltIn [1]:df2_bOut[1]: 项目建设周期<0天 100天 66571个月 1893...原创 2018-05-04 17:36:27 · 17841 阅读 · 0 评论 -
pandas多级分组如何排序
pandas有groupby分组函数和sort_values排序函数,但是如何对dataframe分组之后排序呢?转载 2017-08-10 14:56:29 · 14892 阅读 · 3 评论 -
关于盒须图的那些事——四分位数,插值法
项目的应用场景建设,使用到了tableau的盒须图,盒须图的四分位数,插值法原创 2017-06-13 00:33:41 · 20024 阅读 · 2 评论 -
kettle抽取——多平台汇总数据仓库
1.多个平台数据汇总到数据仓库,最后的所有表在数据仓库是完备的2.汇总表的同时每条记录都要记录日志表,日志表有两个,一个为记录成功或失败记录,一个为分配已成功抽取的表进行数据清洗、对比、转换等数据处理原创 2017-03-27 18:09:53 · 9564 阅读 · 10 评论 -
kettle 批量抽取多个表数据
使用kettle从一个库将数据抽取到另一个库,单个表一个转换就可以简单实现了,那如果是好多表呢,难道要建若干个转换来实现这个功能吗,那就尝试做一个批量抽取的job吧!整个抽取过程包括一个job和两个trans,先来看看整个job吧: job的start和success就没什么可说的了,两个脚本是关键,接下来一步一步来。首先是文件输入这个trans: 这个trans的作用是提取表名并放入结原创 2016-11-24 17:08:21 · 33414 阅读 · 28 评论 -
Python机器学习算法实践——k均值聚类(k-means)
机器学习中有两类的大问题,一个是分类,一个是聚类。分类是根据一些给定的已知类别标号的样本,训练某种学习机器,使它能够对未知类别的样本进行分类。这属于supervised learning(监督学习)。而聚类指事先并不知道任何样本的类别标号,希望通过某种算法来把一组未知类别的样本划分成若干类别,这在机器学习中被称作 unsupervised learning (无监督学习)。上一篇的knn就是监督学习分类算法,而本文的原创 2017-02-09 08:27:13 · 16279 阅读 · 11 评论 -
机器学习KNN——Python算法实现
kNN算法是监督学习中分类方法的一种。核心思想:在训练集中选出离输入的数据点最近的k个数据,根据这k个数据的类别判断输入的数据点的类别,k个数据的类别判断方法可以是k个中出现次数最多的类别,也还可以根据距离输入点的距离计。Python版本:2.7原创 2017-01-25 14:50:47 · 879 阅读 · 0 评论