自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(24)
  • 收藏
  • 关注

原创 第四章 Pandas变形

一、透视表pivot透视表是一种可以对数据动态排布并且分类汇总的表格格式通过index,coloumn,value信息,pivot函数可以对数据表进行重新重塑其中行与列两个参数是必须要有的例如:我想以学号作为索引,查看男女生的身高情况df.pivot(index='ID',columns='Gender',values='Height').head()另外pivot不是很灵活,...

2020-04-28 23:36:28 242

原创 pandas变形

交叉表是一种特殊的透视表,典型的用途如分组统计,如现在想要统计关于街道和性别分组的频数:print(pd.crosstab(index=df['Address'],columns=df['Gender']))交叉表的功能也很强大(但目前还不支持多级分组),下面说明一些重要参数:① values和aggfunc:分组对某些数据进行聚合操作,这两个参数必须成对出现。默认参数等于如下方法:pd....

2020-04-26 23:18:53 247

原创 pandas学习--索引

df1=pd.read_csv("new_abnormal_orders.csv",index_col='order_id')最常用的索引方法可能就是这三类,其中iloc表示位置索引,loc表示标签索引,[]也具有很大的便利性,各有特点。#单行索引,(注意:所有在loc中使用的切片全部包含右端点!)df1.loc[4285058250]#多行索引df1.loc[[4285058250,...

2020-04-23 23:01:21 238

原创 pandas打卡学习----pandas基础

ps:本次pandas训练使用1.0.3版本,如低版本可通过 pip install --upgrade pandas==1.0.3 指定版本升级#导入pandas import pandas as pd#导入numpyimport numpy as np#查看pandas 版本 pd.__version__#csv格式df = pd.read_csv('data/tabl...

2020-04-20 23:11:00 268 1

原创 SelectPercentile

from sklearn.datasets import load_irisfrom sklearn.feature_selection import SelectPercentile,chi2iris = load_iris()X, y = iris.data, iris.targetsp=SelectPercentile(chi2, percentile=34).fit(X,y)pr...

2019-04-21 07:26:03 2245 1

原创 2升4用户分析与建模

2019-04-16 10:10:01 152

原创 数据清洗和基本异常值分析---铁塔电费分析报告

import pandas as pdimport osimport matplotlib.pyplot as plt import seaborn as snsimport timeimport datetimeimport dateutilimport numpy as npimport seaborn as snssns.set_style("darkgrid",{"fon...

2019-04-16 09:34:45 389

原创 8.0.15MySQL Community安装全程,密码初始化,链接python

系统:win7旗舰版64位MySQLl免安装版本:mysql-8.0.15-winx64第一步:下载Mysql社区版本**第二步:创建.ini文件,先新建txt文件,填入内容后改后缀。我安装在“D:\2345Downloads\mysql-8.0.15-winx64”下[mysql] # 设置mysql客户端默认字符集 default-character-set=utf8 ...

2019-04-09 17:29:00 526

转载 关于Github中的jupyter notebook文件(.ipynb)加载失败的解决方法(转载)

github上jupyter notebook加载很慢,有时候加载不出来。解决方案:1.如果本机装好了jupyter notebook的话可以下载下来,在本机打开看,相对会快一些。2.下载jupyter notebook:如果已经有anaconda的话,可以直接用 conda install jupyter notebook 的命令安装。或者使用 pip install jupyter ,...

2019-03-24 15:58:57 1841

转载 Pandas中loc和iloc函数用法详解

利用loc、iloc提取行数据import numpy as npimport pandas as pd#创建一个Dataframedata=pd.DataFrame(np.arange(16).reshape(4,4),index=list('abcd'),columns=list('ABCD')) In[1]: dataOut[1]: A B C Da...

2019-03-12 16:36:55 82125 7

原创 电商常见术语

2019-03-12 15:02:55 2770

原创 list是可变序列,tuple和str都是不可变的

lst[0] = 5print(lst)# 这里修改了lst的索引0的值,且这里索引0的值是一个数字tup = (1,2,3,4,5)tup[0] = 5print(tup)# 这里会报错st = 'abcdefg'st[0] = 'g'print(st)# 同样也会报错...

2019-03-11 11:02:20 1366

原创 sorted

lst1 = [1,12,20,120,230]lst2 = ['1','12','20','120','230']print(sorted(lst1))print(sorted(lst2))

2019-03-11 11:00:20 1012

原创 2升4分类模型

2升4数据建模 离散化特征# In[1]:"""导入数据"""import pandas as pdimport numpy as npimport osimport seaborn as snsimport matplotlib.pyplot as pltos.chdir('K:\\项目\\2升4\\')data = pd.read_exc

2019-03-03 11:51:30 256

原创 2升4用户目标群体分析

# coding: utf-8# # 2升4数据分析# # 数据来源于信息化和客户服务部门5月的2G用户在网数据,目前2升4已经进行了半年之久,对于5月之初的8W+数据中有近1W用户成功转网,标签为1,在此我们定义半年没有转网的用户为没有成功2升4的用户,标签为0,采集数据中用户终端均是只是支持联通2G网络的2G终端,故不作终端分析。# In[2]:"""导入数据"

2019-03-03 11:48:46 579

原创 数据清洗和基本异常值分析---铁塔电费分析报告

下面是最近写的关于铁塔电费的分析报告,数据来源是因为领导想让我做数据的自动化,做完自动化就顺便做了一个数据分析报告。2018年铁塔电费分析报告自2016年10月至2018年12月共向铁塔结算6169次电费,共计电费1078w,现在根据该数据预测2019年的铁塔电费。铁塔电费的多少取决于四要素:用电量,电费单价,年站点数,分割比例。一、用电量在结算电费表中,不同站点的结算周期不一样,无法直...

2019-03-03 11:06:28 2077

原创 Sql(PG SQL)常见面试题一

–1. 用一条SQL 语句 查询出每门课都大于80 分的学生姓名name kecheng fenshu张三 语文 81张三 数学 75李四 语文 76李四 数学 90王五 语文 81王五 数学 100王五 英语 90CREATE TABLE data(name text,kecheng text,fenshu int);INSERT INTO data values(‘张...

2019-02-07 19:50:51 6234

原创 数据分析师必备的统计学知识

知识点汇总:1.集中趋势(Central Tendency)2.变异性(Variability)3.归一化(Standardizing)4.正态分布(Normal Distributions)5.抽样分布(Sampling Distributions)6.估计(Estimation)7.假设检验(Hypothesis testing)8.T检验(T-test)一、集中趋势(Cen...

2019-01-23 12:08:04 1384

原创 批量删除两列日期间隔为N的数值列

日常在处理数据中,对于日期段的异常值,可能是由于财务部门在合并某些账目,譬如16%和17税票的合并,会导致在短期内出现极度异常值,这样的极度异常值是人为的且是合理的,所以需要删除。附代码如下:'''比较两个日期是否相同'''#计算两个日期相差天数,自定义函数名,和两个日期的变量名。def Caltime(date1,date2): #%Y-%m-%d为日期格式,其中的-可以...

2019-01-08 10:24:15 194

原创 Seaborn入门系列(一)——distplot

sns.set_style('white')# 图表风格设置# 风格选择包括:"white", "dark", "whitegrid", "darkgrid", "ticks" plt.figure(figsize=(8,4))#绘制画布sns.distplot(data_male['height'],hist = False,kde = True,rug = True, ...

2018-12-28 15:42:05 40585 8

原创 遍历文件夹

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片UML 图表FLowchart流程图导出与导入导出导入欢迎使用Markdown编辑器你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下Markdow...

2018-12-28 14:45:23 132

原创 sklearn 线性回归LinearRegression()参数

LinearRegression(fit_intercept=True, normalize=False, copy_X=True, n_jobs=None)fit_intercept:是否有截据,如果没有则直线过原点;normalize:是否将数据归一化;copy_X:默认为True,当为True时,X会被copied,否则X将会被覆写;n_jobs:默认值为1。计算时使用的核数...

2018-12-27 23:32:12 24029

转载 numpy模块笔记之meshgrid

meshgrid 的使用方法:[X,Y] = meshgrid(x,y) 将向量x和y定义的区域转换成矩阵X和Y,这两个矩阵可以用来表示mesh和surf的三维空间点以及两个变量的赋值。其中矩阵X的行向量是向量x的简单复制,而矩阵Y的列向量是向量y的简单复制。...

2018-12-27 23:04:32 144

原创 index_col的用法

1.index_col 默认值(index_col = None)——重新设置一列成为index值2.index_col=False——重新设置一列成为index值3.index_col=0——第一列为index值index_col=0,将第一列变为index。...

2018-12-27 20:46:37 39836 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除