利用python进行数据分析
文章平均质量分 70
从pandas库的数据分析工具开始利用高性能工具对数据进行加载、清理、转换、合并以及重塑;利用matpIotlib创建散点图以及静态或交互式的可视化结果;利用pandas的groupby功能对数据集进行切片、切块和汇总操作;处理各种各样的时间序列数据。
若云流风
工业互联网从业者,关注IOT、MES、ERP。
展开
-
数据分析基础
上海交大 王彦老师的《数据分析基础》课程笔记原创 2022-05-21 08:00:00 · 513 阅读 · 0 评论 -
处理数据spss乱码
用python处理处理数据产生的乱码问题原创 2022-03-16 22:41:44 · 6782 阅读 · 0 评论 -
sqlite 如何限制某个表中的数据总数
1、定期执行:DELETE FROM table where _id NOT IN (SELECT _id from table ORDER BY insertion_date DESC LIMIT 50)2、或者建立一个trigger:CREATE TRIGGER delete_till_50 INSERT ON _table WHEN (select count(*) from _table)>50 BEGIN DELETE FROM _table W...原创 2021-09-18 12:30:11 · 2049 阅读 · 0 评论 -
机器学习之汤普森算法
一、UCB和汤普森算法比较¶二、导入标准库In[1]:# Importing the libraries 导入库import numpy as npimport matplotlib.pyplot as pltimport pandas as pd# 使图像能够调整%matplotlib notebook #中文字体显示 plt.rc('font', famil......原创 2018-07-21 14:38:07 · 6750 阅读 · 8 评论 -
机器学习之置信区间上界算法
零、算法原理一、导入标准库In [2]:# Importing the libraries 导入库import numpy as npimport matplotlib.pyplot as pltimport pandas as pd# 使图像能够调整%matplotlib notebook #中文字体显示 plt.rc('font', family='SimHei', size=...原创 2018-07-15 21:40:44 · 4097 阅读 · 2 评论 -
机器学习之K平均算法聚类
一、导入标准库In [1]:# Importing the libraries 导入库import numpy as npimport matplotlib.pyplot as pltimport pandas as pd# 使图像能够调整%matplotlib notebook #中文字体显示 plt.rc('font', family='SimHei', size=8)二、导...原创 2018-07-07 16:10:53 · 837 阅读 · 0 评论 -
机器学习之模型评价与选择(分类问题)
一、伪阳性和伪阴性1. 伪阳性----I型错误,伪阴性---II型错误。2. II型错误要比I型错误严重的多二、混淆矩阵In [ ]:### y 预测 0 1In [ ]:### y实际 0 35 5In [ ]:### 1 10 505位I型错误(伪阳),10为II型错误(伪阴)准确率: (35+50)/100 = 8...原创 2018-06-10 21:25:03 · 706 阅读 · 0 评论 -
XGboost数据比赛实战之调参篇(完整流程)
这一篇博客的内容是在上一篇博客Scikit中的特征选择,XGboost进行回归预测,模型优化的实战的基础上进行调参优化的,所以在阅读本篇博客之前,请先移步看一下上一篇文章。我前面所做的工作基本都是关于特征选择的,这里我想写的是关于XGBoost参数调整的一些小经验。之前我在网站上也看到很多相关的内容,基本是翻译自一篇英文的博客,更坑的是很多文章步骤讲的不完整,新人看了很容易一头雾水。由于本人也是一个原创 2018-03-26 17:50:01 · 37939 阅读 · 15 评论 -
机器学习之随机森林
一、导入标准库In [3]:# Importing the libraries 导入库import numpy as npimport matplotlib.pyplot as pltimport pandas as pd# 使图像能够调整%matplotlib notebook #中文字体显示 plt.rc('font', family='SimHei', size=8)二、导...原创 2018-05-12 09:22:05 · 584 阅读 · 0 评论 -
机器学习之决策树
一、导入标准库In [1]:# Importing the libraries 导入库import numpy as npimport matplotlib.pyplot as pltimport pandas as pd# 使图像能够调整%matplotlib notebook #中文字体显示 plt.rc('font', family='SimHei', size=8)二、导...原创 2018-05-05 09:10:24 · 480 阅读 · 0 评论 -
机器学习之朴素贝叶斯
一、导入标准库In [2]:# Importing the libraries 导入库import numpy as npimport matplotlib.pyplot as pltimport pandas as pd# 使图像能够调整%matplotlib notebook #中文字体显示 plt.rc('font', family='SimHei', size=8)二、导...原创 2018-05-01 10:48:45 · 344 阅读 · 0 评论 -
机器学习之SVM
一、导入标准库In [1]:# Importing the libraries 导入库import numpy as npimport matplotlib.pyplot as pltimport pandas as pd# 使图像能够调整%matplotlib notebook #中文字体显示 plt.rc('font', family='SimHei', size=8)二、导...原创 2018-04-23 00:17:44 · 753 阅读 · 0 评论 -
机器学习之逻辑回归
一、导入标准库In [1]:# Importing the libraries 导入库import numpy as npimport matplotlib.pyplot as pltimport pandas as pd# 使图像能够调整%matplotlib notebook #中文字体显示 plt.rc('font', family='SimHei', size=8)二、导...原创 2018-04-21 13:26:41 · 360 阅读 · 0 评论 -
pandas、numpy、scipy常见用法
pandas、numpy、scipy常见用法导入标准库In [139]:import matplotlib.pyplot as plt%matplotlib notebook import seaborn as snssns.set(style='whitegrid', context='notebook')sns.reset_orig()import pandas as pdimp...原创 2018-04-19 22:37:12 · 2950 阅读 · 0 评论 -
机器学习之多项式回归
零、模型1、公式y = b0 + b1X1+B2X2^2 +BnXn^n2.R平方R^2 = 1- 剩余平方和/共平方和R^2为值为0到1,越大拟合效果越好3.广义R平方(增加惩罚作用)R^2 = 1- 剩余平方和/共平方和 *((n-1)/n-p-1)n :数据个数 p:自变量个数一、导入标准库In [16]:# Importing the libraries 导入库import numpy ...原创 2018-04-15 12:03:58 · 1440 阅读 · 0 评论 -
机器学习之多元线性回归
零、模型0.1、模型介绍y = b0 + b1X1+B2X2+BnXn0.2、限定条件1.线性、2.同方差性、3.多元正太分布、4.误差独立、5.无多重共线性0.3 模型的建立方法1.全部选取 :反向淘汰的第一步、必须全部选取的时候、先验知识2.反向淘汰 :自变量对于P值的影响, 计算每个自变量的P值,进行与自定义SL值比较。3.顺向选择 :每个变量是否能够进入模型,4.双向淘汰 : 选择两个显著...原创 2018-04-15 11:18:18 · 1519 阅读 · 3 评论 -
机器学习之简单线性回归
一、导入标准库In [36]:# Importing the libraries 导入库import numpy as npimport matplotlib.pyplot as pltimport pandas as pd# 使图像能够调整%matplotlib notebook #中文字体显示 plt.rc('font', family='SimHei', size=8)二、...原创 2018-04-14 21:51:21 · 390 阅读 · 0 评论 -
机器学习之数据预处理
一、导入标准库In [1]:# Importing the libraries 导入库import numpy as npimport matplotlib.pyplot as pltimport pandas as pd二、导入数据In [24]:# Importing the dataset 导入数据dataset = pd.read_csv('./Data.csv')X = d...原创 2018-04-14 20:36:42 · 728 阅读 · 0 评论 -
数据分析之乳腺癌预测
零、定义问题1.1 数据介绍http://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/breast-cancer-wisconsin.names#属性域1.示例代码号码2.块厚度1 - 103.细胞大小的一致性1 - 104.电池形状的均匀性1 - 105.边缘附着力1 - 106.单个上皮细胞......原创 2018-02-25 15:33:01 · 22027 阅读 · 8 评论 -
数据分析之预测模型项目模板
机器学习是一项经验技能,经验越多越擅长。不能只通过阅读就能掌握机器学习的技能,需要大量的练习才能掌握。在这里将介绍一个通用的引入机器学习的六个步骤。通过本篇文章将学到: 1.端到端的预测模型的项目结构 2.如何将前面学到的内容引入到项目中 3.如何通过这个项目模版来得到一个高准确度的模型一、 在项目中实践机器学习 从端到端转载 2018-01-27 10:39:14 · 7326 阅读 · 0 评论 -
数据分析之优化算法与模型持久化
一、机器学习算法的参数 1.影响准确度 ------优化 2.防止过拟合 ------优化 3.其他参数二、网格搜索优化参数(参数少,3个以内) 1.原理 它是通过对遍历已定义参数的列表来评估算法的参数,从而找到最有的参数 2.示例In [11]:from pandas import read_csvimport pandas as pdf...原创 2018-02-10 13:14:44 · 1524 阅读 · 0 评论 -
数据分析之通过集成提高算法
一、算法集成方法¶ 1.装袋(Bagging):通过给定组合投票的方式,获得最优解。比如你生病了,去n个医院看了n个医生,每个医生给你开了药方,最后的结果中,哪个药方的出现的次数多,那就说明这个药方就越有可能性是最由解,这个很好理解。而bagging算法就是这个思想。 2.提升(Boosting):一种原创 2018-01-28 11:49:23 · 819 阅读 · 0 评论 -
数据分析之审查回归算法
一、线性算法1.线性回归 1.1 原理 :y = ax +b的升级版。 1.2 适用场景 :普遍适用,简单粗暴的算法2.岭回归 2.1 原理 :改良的最小二乘估计法原创 2018-01-27 09:23:10 · 930 阅读 · 0 评论 -
数据分析之审查分类算法
一、算法审查对于当前数据集,寻找最优算法没有最好的分类器,只有最合适的分类器。随机森林平均来说最强,但也只在9.9%的数据集上拿到了第一,优点是鲜有短板。SVM的平均水平紧随其后,在10.7%的数据集上拿到第一。神经网络(13.2%)和boosting(~9%)表现不错。数据维度越高,随原创 2018-01-21 19:03:43 · 1316 阅读 · 0 评论 -
数据分析之算法评估矩阵
一、算法评估矩阵目的:合理有效的评估算法,寻找最适合的算法和参数二、分类算法矩阵2.1 分类正确率:分对了多少In [6]:from pandas import read_csvfrom sklearn.model_selection原创 2018-01-20 11:38:37 · 1826 阅读 · 0 评论 -
数据分析之评估算法
一、分离训练数据集和评估数据集In [9]:# 通过卡方检验选定数据特征import pandasfrom pandas import read_csvfrom sklearn.preprocessing import LabelEncoderfrom sklearn.model_selection import train_test_split原创 2018-01-14 12:17:33 · 4296 阅读 · 0 评论 -
数据分析之特征选择
一、数据驱动1.相关性:皮尔逊系数In [1]:from numpy.random import randnimport numpy as npfrom scipy.stats.stats import pearsonr1.随机数据:相关性也很随机原创 2018-01-14 10:44:14 · 2675 阅读 · 0 评论 -
数据分析之数据清洗
一、数据导入In [144]:#读取数据import matplotlib.pyplot as plt%matplotlib notebookimport seaborn as sns #要注意的是一旦导入了seaborn,matplotlib的默认作图风格就会被覆盖成seaborn的格式import pandasusers=pandas.re原创 2018-01-07 14:07:34 · 2492 阅读 · 0 评论 -
数据分析之seaborn画图
数据分析之seaborn画图原创 2018-01-04 22:16:59 · 6625 阅读 · 0 评论 -
数据分析之理解数据
一、数据导入In [8]:import pandasfrom pandas import set_option#括号里面直接指定了数据的来源,当然你也可以按照老师视频中所讲授的来操作iris = pandas.read_csv('http://archive.ics.uci.edu/ml/machine-learning-databases/iri原创 2018-01-01 17:56:39 · 3210 阅读 · 0 评论 -
Scikit-Learn各算法详细参数速查手册(中文)
Scikit-Learn各算法详细参数速查手册(中文)martinScikit-Learn各算法详细参数速查手册中文线性模型1 线性回归2 线性回归的正则化21 Lasso回归L1正则22 岭回归L2正则23 ElasticNet弹性网络正则3 逻辑回归4 线性判别分析决策树1 回归决策树2分类决策树贝叶斯分类器1 高斯贝叶斯分类器2 多项贝叶斯分类器3 伯努利贝叶斯分原创 2017-07-21 18:35:32 · 10114 阅读 · 5 评论 -
常见开放数据集
一、科研数据 1.UCI http://archive.ics.uci.edu/ml/datasets.html UCI数据库是加州大学欧文分校(University of CaliforniaIrvine)提出的用于机器学习的数据库,这个数据库目前共有335个数据集,其数目还在不断增加,UCI数据集是一个常用的原创 2017-12-09 10:51:27 · 5991 阅读 · 1 评论 -
利用python进入数据分析之数据聚合与数据分组运算
from __future__ import divisionfrom numpy.random import randnimport numpy as npimport osimport matplotlib.pyplot as pltnp.random.seed(12345)plt.rc('figure', figsize=(10, 6))from pandas import S原创 2017-11-25 19:19:57 · 1851 阅读 · 0 评论 -
利用python进入数据分析之数据规整化:清理、转换、合并、重塑(二)
数据转换移除重复数据In [106]:data = DataFrame({'k1': ['one'] * 3 + ['two'] * 4, 'k2': [1, 1, 2, 3, 3, 4, 4]})dataOut[106]:原创 2017-10-22 18:58:13 · 2992 阅读 · 0 评论 -
利用python进入数据分析之数据规整化:清理、转换、合并、重塑(一)
导入相关包In [2]:from __future__ import divisionfrom numpy.random import randnimport numpy as npimport osimport matplotlib.pyplot as pltnp.random.seed(12345)plt.rc('figure', fig原创 2017-10-22 18:56:28 · 1540 阅读 · 0 评论 -
Matplotlib 入门(三):多图合并
一、多合一显示 1、subplot方法:设置行、列和起始点plt.subplot(2,1,1) # 分成两行一列,起始点为1 2、代码# -*- coding: utf-8 -*-"""Created on Sun Sep 24 15:02:51 2017@author: ryoyun"""# subplot 多合...原创 2017-09-24 16:06:43 · 27860 阅读 · 0 评论 -
Matplotlib 入门(二):画图
一、散点图 1、画几个散点一点都不难将x,y放入plt.scatter()中就好了。plt.scatter(np.arange(5),np.arange(5)) #绘制散点图 2、代码# -*- coding: utf-8 -*-"""Created on Sat Sep 23 19:20:54 2017@author: ryo原创 2017-09-24 12:26:44 · 1340 阅读 · 0 评论 -
Matplotlib 入门(一):基础操作
一、第一张图片 1、画图三部曲1.1导入包import matplotlib.pyplot as plt1.2绘制plt.plot(x,y) 1.3显示plt.show() 2、代码# -*- coding: utf-8 -*-"""Created on Sat Sep 23 16:04:36 2017@author: ryoy原创 2017-09-23 17:33:38 · 1356 阅读 · 0 评论 -
利用python进入数据分析之数据加载、存储、文件格式
相关数据测试文件,请到此处下载:http://download.csdn.net/download/u013584315/10014865导入相关包In [44]:from __future__ import divisionfrom numpy.random import randnimport numpy as np原创 2017-10-21 11:06:47 · 1142 阅读 · 0 评论 -
利用python进入数据分析之pandas的使用
导入相关库In[2]:from pandas import Series, DataFrameimport pandas as pdfrom __future__ import divisionfrom numpy.random import randnimport numpy as npimport osimport matplotlib原创 2017-10-15 15:00:03 · 5512 阅读 · 0 评论