*猪耳朵*
电子信息硕士,Java后端开发,Python脚本开发,中间件,运维,人工智能等
展开
-
Python数据分析
数据分析广义的数据分析包括狭义数据分析和数据挖掘。狭义的数据分析是指根据分析目的,采用对比分析、分组分析、交叉分析和回归分析等分析方法,对收集来的数据进行处理与分析,提取有价值的信息,发挥数据的作用,得到一个特征统计量结果的过程。数据挖掘则是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,通过应用聚类、分类、回归和关联规则等技术,挖掘潜在价值的过程。1. 典型的数据分析的流程...原创 2020-03-05 16:20:08 · 12662 阅读 · 0 评论 -
数据预处理
数据预处理数据预处理(数据清洗)是数据挖掘过程中的重要一步,它主要包括数据清洗,数据集成,数据变换和数据规约。在我们进行数据挖掘的过程中,大量的原始数据中存在着大量有问题的数据(脏数据)比如有缺失值的,不一致的,有异常的,大量重复的数据等。这些脏数据会严重影响到数据挖掘建模过程的执行效率,也可能会使挖掘结果产生偏差。通过数据预处理(数据清洗)可以提高数据的质量,更好的适应特定的挖掘技术及工具。...原创 2020-02-19 12:42:45 · 9463 阅读 · 0 评论 -
Python数据分析之numpy的应用
numpy(Numerical Python) 是 Python 语言的一个扩展程序库,支持大量的维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库。numpy 通常与 SciPy(Scientific Python)和 Matplotlib(绘图库)一起使用.numpy 是一个运行速度非常快的数学库,主要用于数组计算,包含:一个强大的N维数组对象 ndarray广播功能函数整合...原创 2020-03-05 22:15:53 · 10481 阅读 · 0 评论 -
Python数据分析之pandas统计分析基础1
pandas(Python Data Analysis Library )是基于numpy 的一种工具,该工具是为了解决数据分析任务而创建的。pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具,pandas提供了大量能使我们快速便捷地处理数据的函数和方法。1. 数据库数据的读写1.1 数据库数据读取pandas提供了读取与存储关系型数据库数据的函数与方法。...原创 2020-03-08 20:23:55 · 9046 阅读 · 0 评论 -
Python数据分析之pandas统计分析基础2
DataFrame常用属性:1.查看访问DataFrame中的数据——数据基本查看方式对单列数据的访问:DataFrame的单列数据为一个Series。根据DataFrame的定义可以知晓DataFrame是一个带有标签的二维数组,每个标签相当每一列的列名。有以下两种方式来实现对单列数据的访问。以字典访问某一个key的值的方式使用对应的列名,实现单列数据的访问。以属性的方式访问,实现...原创 2020-03-08 20:39:11 · 8395 阅读 · 0 评论 -
Python数据分析之pandas统计分析基础3
DataFrame数据的分析1. 数值型特征的描述性统计数值型数据的描述性统计主要包括了计算数值型数据的完整情况、最小值、均值、中位数、最大值、四分位数、极差、标准差、方差、协方差和变异系数等。在numpy库中一些常用的统计学函数如下表所示。pandas库基于numpy,自然也可以用这些函数对数据框进行描述性统计。pandas还提供了更加便利的方法来计算均值 ,如detail[‘amou...原创 2020-03-08 21:43:10 · 8865 阅读 · 0 评论 -
Python数据分析之pandas统计分析基础4
pandas时间相关的类在多数情况下,对时间类型数据进行分析的前提就是将原本为字符串的时间转换为标准时间类型。pandas继承了numpy库和datetime库的时间相关模块,提供了6种时间相关的类:import pandas as pd # 引入pandas模块data = pd.read_csv('../data/meal_order_info.csv', encoding='gb...原创 2020-03-09 17:47:22 · 9103 阅读 · 0 评论 -
PyCharm读取数据表显示行列不全
在代码中插入:pd.set_option('display.max_columns', 100)pd.set_option('display.width', 500)插入前:插入后:利用jupyter notebook看数据比较舒服:END原创 2020-03-17 12:20:22 · 11957 阅读 · 0 评论 -
删除pandas中产生的Unnamed列
在数据处理,如果不注意:pandas会自己帮忙加上行和列的名称。这是由于pandas中to_excel生成的数据是各种拼接之后的最终数据(默认index=True,column=True)解决办法:# -*- coding: utf-8 -*-import pandas as pdinputFile = '../data/test.xlsx' # 输入的数据文件outputFile...原创 2020-03-23 21:15:16 · 15386 阅读 · 3 评论 -
Pycharm读取数据库MySQL中的数据
SQLAlchemy 是python 操作数据库的一个库。能够进行 orm 映射官方文档。sqlchemySQLAlchemy采用简单的Python语言,为高效和高性能的数据库访问设计,实现了完整的企业级持久模型”。SQLAlchemy的理念是,SQL数据库的量级和性能重要于对象集合;而对象集合的抽象又重要于表和行。sqlalchemy模块读取engine = create_engine(‘m...原创 2020-03-17 12:13:34 · 12865 阅读 · 0 评论 -
基于Python实现数据写入Excle表
基于Python实现数据写入Excle表data_writeExcle函数已封装为API接口,直接调用,传入参数即可。根据情形不同,函数分为两类:函数功能data_writeExcle_row( file_path, datas, label )按行写入数据data_writeExcle_col( file_path, datas, label )按列写入数据data_writeExcle_row( file_path, datas, label )按行写入数.原创 2022-04-11 14:15:22 · 1749 阅读 · 0 评论 -
Matplotlib下载、安装、简单使用
MatplotlibMatplotlib是一个Python 2D绘图库,它以多种硬拷贝格式和跨平台的交互式环境生成出版物质量的图形。它可与 NumPy 一起使用,提供了一种有效的 MatLab 开源替代方案,也可用于Python脚本,Python和IPython (opens new window)Shell、Jupyter (opens new window)笔记本,Web应用程序服务器和 图形用户界面工具包.(PyQt、wxPython、PyGObject、PyGTK、PySide、Tkinter)。原创 2021-08-12 09:36:32 · 80160 阅读 · 22 评论 -
Python数据分析之Matplotlib的应用
Matplotlib 是 Python 的绘图库。 它可与 NumPy 一起使用,提供了一种有效的 MatLab 开源替代方案。 它也可以和图形工具包一起使用,如 PyQt 和 wxPython。1. Matplotlib中pyplot的基础语法1.绘图流程:1.1 创建画布与创建子图第一部分主要作用是构建出一张空白的画布,并可以选择是否将整个画布划分为多个部分,方便在同一幅图上绘制多...原创 2020-03-06 21:15:35 · 583 阅读 · 0 评论 -
Matplotlib常见问题解决(中文乱码、字体设置、网格设置、坐标轴设置、图片大小和像素设置、坐标轴范围设置)
Matplotlib亲 测 可 用环境:windowsPyCharm 2019.1Python 3.7导入及基本配置import matplotlib.pyplot as plt # 导入matplotlib模块from matplotlib.font_manager import * # 解决中文显示问题plt.rcParams['font.sans-serif']=['SimHei'] # 正常原创 2021-08-12 12:35:48 · 2065 阅读 · 0 评论 -
Python数据分析之Matplotlib数据可视化实例
Matplotlib数据可视化的应用实例分析 :2000至2017年各季度国民生产总值数据分析国民生产总值:# -- coding:utf-8 --import numpy as npimport matplotlib.pyplot as pltplt.rcParams['font.sans-serif'] = 'SimHei' # 设置中文显示,否则可能无法显示中文或者是各种...原创 2020-03-06 22:13:22 · 15135 阅读 · 5 评论 -
大数据分析案例:电力窃漏电用户自动识别
电力窃漏电用户自动识别参考书:《Python数据分析与挖掘实战》工具:Pycharm2019.2.2 + Anaconda3(导入需要的库及Python.exe)新建工程如下:1.背景与数据分析目的a.通过电力系统采集到的数据,提取出窃漏电用户的关键特征,b.构建窃漏电用户的识别模型:以实现自动检查、判断用户是否是存在窃漏电行为。2.数据预处理通过对拿到的数据进行数据质量分析,检...原创 2020-02-15 18:29:40 · 12841 阅读 · 9 评论 -
基于Python实现训练数据移动滑窗
基于Python实现数据移动滑窗movingSlidingwindow(train_data, real_num, pre_num, time_step)函数以API接口的形式进行封装,直接调用即可,传入规定的参数,即可实现数据移动滑窗训练。参数参数描述类型train_data训练数据一位数组real_num用于训练数据长度intpre_num要预测的数据长度inttime_step时间步,默认为1int例如:针对某一时间序列数据 t.原创 2022-04-11 21:00:10 · 2935 阅读 · 0 评论 -
大数据分析案例:财政收入预测分析
财政收入,是指政府为履行其职能、实施公共政策和提供公共物品与服务需要而筹集的一切资金的总和。财政收入预测数据基础情况:对1994年至2013年的数据进行分析(本项目所用数据均来自《统计年鉴》)。合财政收入预测的需求分析,本次数据分析建模目标主要有以下2个。1.分析、识别影响地方财政收入的关键特征2.预测2014年和2015年的财政收入方法选择——最小二乘估计方法建立财政收入与各待...原创 2020-03-11 22:48:05 · 21956 阅读 · 5 评论 -
大数据分析案例:财政收入预测Jupyter版
基于Python实现大数据分析案例:财政收入预测该案例的代码py版本与ipynb程序相同,但在代码迁移过程中可能会遇到一些问题,主要是numpy与pandas版本导致问题。当然限制版本也不一定能解决报错问题,需要我们对程序代码进行相应的修改和调整。注意!!!pandas版本指定为1.4.2numpy版本指定为1.22.3pip install numpy==1.22.3pip install pandas== 1.4.21.特征选取lasso_features.ipynb当中报错:Ind原创 2022-05-19 17:53:09 · 1819 阅读 · 0 评论 -
基于Python利用ARIMA实现时间序列数据预测
基于ARIMA实现时间序列数据预测流程1.导入数据2.模型训练3.模型保存4.模型预测5.模型评估不提供数据,需要自己导入实际需要的数据集,本文图片仅展示ARIMA的预测效果。数据样式为一维数组如[1 2 3 4 5],导入方式程序默认为操纵Excle表的一列,可进行相应替换。时间序列数据预测示例程序# -*- coding: utf-8 -*-'''基于ARIMA实现时间序列数据预测'''from itertools import productimport panda.原创 2022-04-11 20:34:18 · 2735 阅读 · 0 评论 -
大数据分析案例:应用系统负载分析与磁盘容量预测
应用系统负载分析与磁盘容量预测应用系统在日常运行时,会对底层软、硬件造成负荷,显著影响应用系统性能。应用系统性能的因素包括:服务器、数据库、中间件和存储设备。任何一种资源负载过大,都可能会引起应用系统性能下降甚至瘫痪。因此需要关注服务器、数据库、中间件和存储设备的运行状态,及时了解当前应用系统的负载情况,以便提前预防,确保系统安全稳定运行。通过分析磁盘容量相关数据来预测应用系统服务器磁盘空间是否满足系统健康运行的要求。根据这些数据实现针对历史磁盘数据,采用时间序列分析方法,预测应用系统服务器磁盘已使.原创 2022-04-11 19:17:31 · 1966 阅读 · 0 评论