![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据分析
勿语~
种一棵树最好的时间是十年前,其次是现在。
展开
-
秒级数据转化为分钟级数据sql编写
前言利用python读取hive,将hive中秒级数据转化为以10分钟为间隔的数据,除时间与设备id外所有字段的值求平均值。代码连接hive,创建连接通道,并且得到连接通道的钥匙(句柄)conn = connect(host='地址', port=10000, auth_mechanism='PLAIN', user='用户名',database='存储空间')cursor = c...原创 2019-12-07 11:09:47 · 1534 阅读 · 1 评论 -
话谈实际工作中的数据分析
篇始不知不觉,到新的公司任数据分析师一职已有大半年的时光,在段时光中,无可避免的犯了很多错误,亦得到了许多收获。今天,对于在职中的一些过错与收获进行总结,以期在日后的工作与成长过程中,能够更加的顺利。谈谈数据分析工作需具备能力python 与 Jupyter数据整理、数据清洗、数据绘图、数据建模一般用于数据量大或批量处理或数据内容复杂的时候Excel 与 csvExce...原创 2019-11-27 18:08:08 · 1033 阅读 · 0 评论 -
如何提高训练模型准确率
如何提高训练模型准确率原文链接:https://blog.csdn.net/Winteeena/article/details/78997696 提升一个模型的表现有时很困难,尝试所有曾学习过的策略和算法,但模型正确率并没有改善。这才是考验真本领的时候!这也是普通的数据科学家跟大师级数据科学家的差距所在。本文将分享 8 个经过证实的方法,使用这些方法可以建立稳健的机器学习模型。导语模...转载 2019-07-26 18:02:15 · 5998 阅读 · 0 评论 -
numpy、pandas实用总结(MSE、RMSE、r2)
numpy用途之计算均方误差和均方根误差python工作中,处理数据的程序日志输出python工作中,统计程序运行时间原创 2019-07-25 15:15:23 · 37136 阅读 · 3 评论 -
numpy、pandas实用总结(3种数据合并)
前言将俩个或者多个DataFrame合并在一起,这样的操作在日常工作中是极为频繁的一件事情,目前,我所知的有四种将DataFrame合并在一起 的方法:concat,在Series中也可以使用mergejoinconcat合并这种合并实际上是直接将俩个DataFrame简单粗暴的合在了一起,可以横着合并,也可以竖着合并,5个重要参数axis: 指定连接轴,默认为0jo...原创 2019-07-24 17:23:36 · 745 阅读 · 0 评论 -
numpy、pandas实用总结(遍历、重复值、缺失值、异常值、数据过滤、数据清洗)
前言最近工作中经常实用pandas,然而,却发现自己对于pandas的掌握并没有想象中的好,很多pandas的函数和用法,自己都不是特别的熟练,特此总结一下最近经常会使用的pandas用途和函数,增强自己的记忆。pandas用途之DataFrame遍历pandas用途之DataFrame排序pandas用途之DataFrame与Excel、csv操作pandas用途之DataFram...原创 2019-07-24 16:06:30 · 3427 阅读 · 0 评论 -
python绘制热力图
前言工作中,上司要求对于一些数据以热力图的形式进行显示出来,能够更加直观的对于不同的数据继续对比查看.查看网上各大博客, 关于python绘制热力图的博客文章有很多,但是发觉绝大多数都是直接在中国地图或者世界地图上甚至于是 某个城市的地图上进行绘制热力图,也就是说,热力图的底图是无法改变的,比较有印象的四种方法,如下:利用folium 来绘制https://blog.csdn.net/o...原创 2019-07-23 17:24:08 · 10694 阅读 · 1 评论 -
python连接hive总结
开篇```工作中需要,在本地使用python通过远程连接hive,去读取hive的一些表中大量的数据。进行一些数据预处理,然后测试模型的精准度。``````python连接hive,很艰难,很麻烦,在初期去安装一些相关类库的时候,就会出现大量的问题。后期连接成功之后,也出现了连接不稳定的情况,很多时候,在读取文件的时候不能够连续读取。而且,读取效率极慢,慢出了一个天际。````...原创 2019-06-05 18:21:08 · 36015 阅读 · 10 评论 -
学习笔记-数据分析numpy的使用(精简)
Numpy的简介NumPy,是科学计算基础的一个库,提供了大量关于科学计算的相关功能.例如,线性变换,数据统计,随机数生成等。其提供的最核心的类型为多维数组类型(ndarray).导入Numpy包import numpy as npndarray数组的创建# 使用 np.array来创建数组np.array([1, 2, 3])np.array([[1, 2, 3], [...原创 2019-03-23 10:20:39 · 305 阅读 · 0 评论 -
matplotlib 常用操作(精简)
前言也是刚刚接触这块,为了方便记忆,找出认为重要的精简的总结了一下,如有错误请指出,谢谢绘图前设置绘图前第一步,导入相关包# 就我目前来说,只用在 设置全局的字体,字号,字体颜色import matplotlib as mpl# 各种图形的库import matplotlib.pyplot as plt# 导入俩个库,具有三个常用的数组(ndarray,SeriesDataF...原创 2019-03-17 23:16:46 · 391 阅读 · 0 评论