LL_QQ63-CSDN博客

原创 Python 笔记--提升

1.将字段名称全部放在列表data_vars=data.columns.values.tolist()2.过滤长度小于等于3的人名names=['tom','jack','joe','apple','rain','bubby']name=[x for x in names if len(x)>3]#结果如下'''['jack', 'apple', 'rain', 'b...

2020-06-20 23:43:36 296

原创 SQL相关笔记整理

1.selectcount(1)from ( select bb.certid, count(distinct flag) num from bb group by certid having count(distinct flag)>1 )a2from>where>group（含聚合）>having>order&gt...

2020-04-04 09:04:13 357

原创 Hive 学习笔记①

1.内部表与外部表区别①未被external修饰的是内部表[managed table],被external修饰的是外部表[external table]；②内部表由hive管理,外部表由hdfs管理；③内部表数据存储在hive.metastore.warehose.dir[默认user/hive/warehouse],外部表数据存储位置由用户自己决定；（如果没有LOCATION，Hive...

2020-03-19 15:17:11 298

原创数据预处理总结 Python

1.数据无量纲化在机器学习算法实践中，我们往往有着将不同规格的数据转换到同一规格，或不同分布的数据转换到某个特定分布的需求，这种需求统称为将数据“无量纲化”。进行无量纲化处理后，表征不同属性（单位不同）的各特征之间才有可比性，如1cm与 0.1kg你怎么比？通过无量纲化可以帮我们提升模型精度，避免某一个取值范围特别大的特征对距离计算造成影响。数据的无量纲化可以是线性的，也可以是非...

2019-12-24 18:26:15 1207

原创自然月日期

from calendar import Calendarimport datetimec = Calendar(firstweekday=6)list_day=[]for item in c.itermonthdates(2018,8): #print(item) #print(item.month) if item.month==8: list_day.append(item)

2021-04-06 17:33:16 275

#针对变量较多，describe方法无法完全显示，因此写自定义函数，查看数值型数据中的数据分布情况#需要计算的指标：均值mean、方差std、最小值min、import numpy as npimport pandas as pdfrom scipy import statsdata=pd.read_csv()def desc(data): #筛选出数值型的数据 df=data.copy() #新建一个DataFrame，记载各变量的数据类型，便于后续筛选 .

2021-03-25 14:14:30 1306

原创 python分箱

为便于工作中计算KS和IV等值，编写一套可以沿用的代码，方便随时使用。#第一步，读取数据import pandas as pdimport numpy as npdf=pd.read_excel(r'C:\Users\***\a.xlsx')#第二步：查看所有字段的字段类型df.dtypes#新建一个DataFrame，记载各变量的数据类型，便于后续筛选df_var=pd.DataFrame(df.columns,columns=['var'])df_type=pd.DataFr

2020-11-23 18:12:39 3058 3

原创问题集中营~待处理

1.异常值检查方法处理方法；2.分位数的理解3.import imblearnfrom imblearn.over_sampling import SMOTEsmote=SMOTE(random_state=404)X,y=smote.fit_sample(df.iloc[:,1:],df.iloc[:,0])...

2020-03-24 18:26:06 229

原创模型评估方法和性能指标的理解

1.混淆矩阵：混淆矩阵也称误差矩阵，是表示精度评价的一种标准格式，用n行n列的矩阵形式来表示。混淆矩阵（confusion matrix）是可视化工具，特别用于监督学习，在无监督学习一般叫做匹配矩阵。举例：对应矩阵：结合实际工作中的专业术语：其中，各字母所代表含义：T True 预测...

2020-03-20 15:01:43 2532

原创 K-means 使用SSE和轮廓系数

import pandas as pd import numpy as np#创造数据from sklearn.datasets import make_blobsimport matplotlib.pyplot as pltx,y=make_blobs(n_samples=500,n_features=2,centers=4,random_state=1)fig,ax1=plt...

2020-02-17 17:09:11 2011

原创 KNN 鸢尾花&癌症预测交叉验证&网格搜索笔记

一、交叉验证 cross_val_score：sklearn.cross_validation.cross_val_score(estimator, X, y=None, scoring=None, cv=None, n_jobs=1, verbose=0, fit_params=None, pre_dispatch=‘2*n_jobs’)参数estimator：数据对象X：...

2020-02-08 19:32:25 697

原创 .python 简单小练习

1.九九乘法表list1=[]for i in range(1,10): list1.append(i) list1.sort(reverse=True)for m in list1: # print(m) for n in range(1,m+1): print("{}*{}={}".format(m,n,m*n),end=" ...

2020-01-30 18:02:09 202

原创数据清洗与准备

1 处理缺失值1.1 过滤缺失值：dropna()1.2 补全缺失值：fillna()1.3 数据转换1.3.1 删除重复值①duplicated方法返回的是一个布尔值series；②drop_duplicates返回的是DataFrame，内容是duplicated返回数组中为False的部分；注释：duplicated和drop_duplicates...

2020-01-28 13:13:54 244

原创内建数据结构、函数

一、数据结构和序列1.1元组，tuple,()#元组t1=()print(type(t1))'''<class 'tuple'>'''t2=(1)print(type(t2))'''<class 'int'>'''t3=('1')print(type(t3))'''<class 'str'>'''t4=(1,)...

2020-01-27 17:44:35 227

原创 python 将数据放在邮件正文发送

#需发送的数据dataimport smtplibfrom email.mime.text import MIMETextfrom email.utils import formataddrfrom email.mime.multipart import MIMEMultipartfrom email.header import Header#发件箱my_sender='~'...

2020-01-07 15:56:30 1038

原创 matplotlib 折线图

在python的matplotlib库中分别可用bar、barh、plot函数来构建它们，再使用xticks与yticks（设置坐标轴刻度）、xlabel与ylabel（设置坐标轴标签）、title（标题）、legend（图例）、xlim与ylim（设置坐标轴数据范围）、grid（设置网格线）等命令来装饰图形plot(*args, scalex=True, ...

2020-01-05 13:37:40 447

原创爱心函数可视化 python

import numpy as npimport matplotlib.pyplot as pltx = np.linspace(-8 , 8, 1024)y1 = 0.618*np.abs(x) - 0.8* np.sqrt(64-x**2)y2 = 0.618*np.abs(x) + 0.8* np.sqrt(64-x**2) plt.plot(x, y1, color = 'r...

2020-01-05 13:22:26 518

原创 matplotlib 散点图

scatter( x, y, s=None, c=None, marker=None, cmap=None, norm=None, vmin=None, vmax=None, alpha=None, linewidths=None, verts=None, edgecolors=None, *, plotnonfinite=False, data=...

2020-01-04 20:25:27 486

原创特征选择

可参考文章：https://www.cnblogs.com/pinard/p/9032759.html特征选择就是从原始特征中选取一些最有效的特征来降低维度,，提高模型泛化能力减低过拟合的过程，主要目的是剔除掉无关特征和冗余特征，选出最优特征子集；常见的特征选择方法可以分为3类：过滤式（filter）、包裹式（wrapper）、嵌入式（embedding）。1.过滤式filter：通过...

2020-01-03 16:23:40 737

原创小猪佩奇代码 Python

from turtle import*def nose(x,y):#鼻子 penup()#提起笔 goto(x,y)#定位 pendown()#落笔，开始画 setheading(-30)#将乌龟的方向设置为to_angle/为数字（0-东、90-北、180-西、270-南） begin_fill()#准备开始填充图形 a=0.4 for i in ...

2020-01-02 17:47:25 2312

原创 StratifiedShuffleSplit 分层抽样

分层随机分割交叉验证器可以将数据分割为训练集和测试集，不过它只提供训练集/测试集数据在原始数据集中的位置索引。由该类生成的交叉验证对象融合了StratifiedKFold和ShuffleSplit两个函数的功能，该对象返回分层随机折，对像通过对每一类保留一定比例的样本生成折。注意：同随机分割一样，分层随机分割不保证所有折都是不同的，即使对于大数据集也不例外。原型为：class sklea...

2020-01-02 16:20:23 1406

原创线性回归-案例1

from sklearn.datasets import load_bostonfrom sklearn.linear_model import LinearRegressionfrom sklearn.metrics import mean_squared_errorfrom sklearn.model_selection import train_test_splitfrom s...

2019-12-31 10:00:45 217

原创等频分箱代码

如下代码，仅需将原始已处理好的需变量分析的数据读入，Y值需将字段名称修改为‘15A’即可运行。# -*- coding: utf-8 -*-""""""import pandas as pdimport numpy as npimport xlrd#from pandasql import sqldf#定义读入数据def xlsxread(self):...

2019-12-16 09:59:16 1868 2

原创 mysql中将一行转化为多行数据

之前在网上搜索了很多关于这个问题的解答方式，基本都是使用substring_index和mysql.help_topic搭配使用，方法没错，但是使用后发现运行时间太长，因此就放弃使用网上推荐的方法。可以使用substring_index和union all搭配使用；图1图2将图1变为图2，可以这样编写代码：select id,name,substring_inde...

2018-12-12 16:22:51 3821 1

LL_QQ63的博客