自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(25)
  • 问答 (1)
  • 收藏
  • 关注

原创 Python 笔记--提升

1.将字段名称全部放在列表data_vars=data.columns.values.tolist()2.过滤长度小于等于3的人名names=['tom','jack','joe','apple','rain','bubby']name=[x for x in names if len(x)>3]#结果如下'''['jack', 'apple', 'rain', 'b...

2020-06-20 23:43:36 204

原创 SQL相关笔记整理

1.selectcount(1)from ( select bb.certid, count(distinct flag) num from bb group by certid having count(distinct flag)>1 )a2from>where>group(含聚合)>having>order&gt...

2020-04-04 09:04:13 273

原创 Hive 学习笔记②

可直接参考文章:点击

2020-03-20 10:26:02 161

原创 Hive 学习笔记①

1.内部表与外部表区别①未被external修饰的是内部表[managed table],被external修饰的是外部表[external table];②内部表由hive管理,外部表由hdfs管理;③内部表数据存储在hive.metastore.warehose.dir[默认user/hive/warehouse],外部表数据存储位置由用户自己决定;(如果没有LOCATION,Hive...

2020-03-19 15:17:11 205

原创 数据预处理总结 Python

1.数据无量纲化 在机器学习算法实践中,我们往往有着将不同规格的数据转换到同一规格,或不同分布的数据转换到某个特定分布的需求,这种需求统称为将数据“无量纲化”。进行无量纲化处理后,表征不同属性(单位不同)的各特征之间才有可比性,如1cm与 0.1kg你怎么比?通过无量纲化可以帮我们提升模型精度,避免某一个取值范围特别大的特征对距离计算造成影响。数据的无量纲化可以是线性的,也可以是非...

2019-12-24 18:26:15 1059

原创 自然月日期

from calendar import Calendarimport datetimec = Calendar(firstweekday=6)list_day=[]for item in c.itermonthdates(2018,8): #print(item) #print(item.month) if item.month==8: list_day.append(item)

2021-04-06 17:33:16 184

原创 python describe

#针对变量较多,describe方法无法完全显示,因此写自定义函数,查看数值型数据中的数据分布情况#需要计算的指标:均值mean、方差std、最小值min、import numpy as npimport pandas as pdfrom scipy import statsdata=pd.read_csv()def desc(data): #筛选出数值型的数据 df=data.copy() #新建一个DataFrame,记载各变量的数据类型,便于后续筛选 .

2021-03-25 14:14:30 1086

原创 python分箱

为便于工作中计算KS和IV等值,编写一套可以沿用的代码,方便随时使用。#第一步,读取数据import pandas as pdimport numpy as npdf=pd.read_excel(r'C:\Users\***\a.xlsx')#第二步:查看所有字段的字段类型df.dtypes#新建一个DataFrame,记载各变量的数据类型,便于后续筛选df_var=pd.DataFrame(df.columns,columns=['var'])df_type=pd.DataFr

2020-11-23 18:12:39 2694 3

原创 问题集中营~待处理

1.异常值检查方法 处理方法;2.分位数的理解3.import imblearnfrom imblearn.over_sampling import SMOTEsmote=SMOTE(random_state=404)X,y=smote.fit_sample(df.iloc[:,1:],df.iloc[:,0])...

2020-03-24 18:26:06 144

原创 模型评估方法和性能指标的理解

1.混淆矩阵:混淆矩阵也称误差矩阵,是表示精度评价的一种标准格式,用n行n列的矩阵形式来表示。混淆矩阵(confusion matrix)是可视化工具,特别用于监督学习,在无监督学习一般叫做匹配矩阵。举例:对应矩阵: 结合实际工作中的专业术语: 其中,各字母所代表含义:T True 预测...

2020-03-20 15:01:43 1836

原创 K-means 使用SSE和轮廓系数

import pandas as pd import numpy as np#创造数据from sklearn.datasets import make_blobsimport matplotlib.pyplot as pltx,y=make_blobs(n_samples=500,n_features=2,centers=4,random_state=1)fig,ax1=plt...

2020-02-17 17:09:11 1828

原创 KNN 鸢尾花&癌症预测 交叉验证&网格搜索 笔记

一、交叉验证 cross_val_score:sklearn.cross_validation.cross_val_score(estimator, X, y=None, scoring=None, cv=None, n_jobs=1, verbose=0, fit_params=None, pre_dispatch=‘2*n_jobs’)参数estimator:数据对象X:...

2020-02-08 19:32:25 598

原创 .python 简单小练习

1.九九乘法表list1=[]for i in range(1,10): list1.append(i) list1.sort(reverse=True)for m in list1: # print(m) for n in range(1,m+1): print("{}*{}={}".format(m,n,m*n),end=" ...

2020-01-30 18:02:09 135

原创 数据清洗与准备

1 处理缺失值1.1 过滤缺失值:dropna()1.2 补全缺失值:fillna()1.3 数据转换1.3.1 删除重复值①duplicated方法返回的是一个布尔值series;②drop_duplicates返回的是DataFrame,内容是duplicated返回数组中为False的部分;注释:duplicated和drop_duplicates...

2020-01-28 13:13:54 170

原创 内建数据结构、函数

一、数据结构和序列1.1元组,tuple,()#元组t1=()print(type(t1))'''<class 'tuple'>'''t2=(1)print(type(t2))'''<class 'int'>'''t3=('1')print(type(t3))'''<class 'str'>'''t4=(1,)...

2020-01-27 17:44:35 169

原创 python 将数据放在邮件正文发送

#需发送的数据dataimport smtplibfrom email.mime.text import MIMETextfrom email.utils import formataddrfrom email.mime.multipart import MIMEMultipartfrom email.header import Header#发件箱my_sender='~'...

2020-01-07 15:56:30 859

原创 matplotlib 折线图

在python的matplotlib库中分别可用bar、barh、plot函数来构建它们,再使用xticks与yticks(设置坐标轴刻度)、xlabel与ylabel(设置坐标轴标签)、title(标题)、legend(图例)、xlim与ylim(设置坐标轴数据范围)、grid(设置网格线)等命令来装饰图形plot(*args, scalex=True, ...

2020-01-05 13:37:40 292

原创 爱心函数可视化 python

import numpy as npimport matplotlib.pyplot as pltx = np.linspace(-8 , 8, 1024)y1 = 0.618*np.abs(x) - 0.8* np.sqrt(64-x**2)y2 = 0.618*np.abs(x) + 0.8* np.sqrt(64-x**2) plt.plot(x, y1, color = 'r...

2020-01-05 13:22:26 353

原创 matplotlib 散点图

scatter( x, y, s=None, c=None, marker=None, cmap=None, norm=None, vmin=None, vmax=None, alpha=None, linewidths=None, verts=None, edgecolors=None, *, plotnonfinite=False, data=...

2020-01-04 20:25:27 209

原创 特征选择

可参考文章:https://www.cnblogs.com/pinard/p/9032759.html特征选择就是从原始特征中选取一些最有效的特征来降低维度,,提高模型泛化能力减低过拟合的过程,主要目的是剔除掉无关特征和冗余特征,选出最优特征子集;常见的特征选择方法可以分为3类:过滤式(filter)、包裹式(wrapper)、嵌入式(embedding)。1.过滤式filter:通过...

2020-01-03 16:23:40 631

原创 小猪佩奇代码 Python

from turtle import*def nose(x,y):#鼻子 penup()#提起笔 goto(x,y)#定位 pendown()#落笔,开始画 setheading(-30)#将乌龟的方向设置为to_angle/为数字(0-东、90-北、180-西、270-南) begin_fill()#准备开始填充图形 a=0.4 for i in ...

2020-01-02 17:47:25 1963

原创 StratifiedShuffleSplit 分层抽样

分层随机分割交叉验证器可以将数据分割为训练集和测试集,不过它只提供训练集/测试集数据在原始数据集中的位置索引。由该类生成的交叉验证对象融合了StratifiedKFold和ShuffleSplit两个函数的功能,该对象返回分层随机折,对像通过对每一类保留一定比例的样本生成折。注意:同随机分割一样,分层随机分割不保证所有折都是不同的,即使对于大数据集也不例外。原型为:class sklea...

2020-01-02 16:20:23 1197

原创 线性回归-案例1

from sklearn.datasets import load_bostonfrom sklearn.linear_model import LinearRegressionfrom sklearn.metrics import mean_squared_errorfrom sklearn.model_selection import train_test_splitfrom s...

2019-12-31 10:00:45 153

原创 等频分箱代码

如下代码,仅需将原始已处理好的需变量分析的数据读入,Y值需将字段名称修改为‘15A’即可运行。# -*- coding: utf-8 -*-""""""import pandas as pdimport numpy as npimport xlrd#from pandasql import sqldf#定义读入数据def xlsxread(self):...

2019-12-16 09:59:16 1690 2

原创 mysql中将一行转化为多行数据

之前在网上搜索了很多关于这个问题的解答方式,基本都是使用substring_index和mysql.help_topic搭配使用,方法没错,但是使用后发现运行时间太长,因此就放弃使用网上推荐的方法。可以使用substring_index和union all搭配使用;图1图2将图1变为图2,可以这样编写代码:select  id,name,substring_inde...

2018-12-12 16:22:51 3697 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除