- 博客(25)
- 问答 (1)
- 收藏
- 关注
原创 Python 笔记--提升
1.将字段名称全部放在列表data_vars=data.columns.values.tolist()2.过滤长度小于等于3的人名names=['tom','jack','joe','apple','rain','bubby']name=[x for x in names if len(x)>3]#结果如下'''['jack', 'apple', 'rain', 'b...
2020-06-20 23:43:36 212
原创 SQL相关笔记整理
1.selectcount(1)from ( select bb.certid, count(distinct flag) num from bb group by certid having count(distinct flag)>1 )a2from>where>group(含聚合)>having>order>...
2020-04-04 09:04:13 280
原创 Hive 学习笔记①
1.内部表与外部表区别①未被external修饰的是内部表[managed table],被external修饰的是外部表[external table];②内部表由hive管理,外部表由hdfs管理;③内部表数据存储在hive.metastore.warehose.dir[默认user/hive/warehouse],外部表数据存储位置由用户自己决定;(如果没有LOCATION,Hive...
2020-03-19 15:17:11 215
原创 数据预处理总结 Python
1.数据无量纲化 在机器学习算法实践中,我们往往有着将不同规格的数据转换到同一规格,或不同分布的数据转换到某个特定分布的需求,这种需求统称为将数据“无量纲化”。进行无量纲化处理后,表征不同属性(单位不同)的各特征之间才有可比性,如1cm与 0.1kg你怎么比?通过无量纲化可以帮我们提升模型精度,避免某一个取值范围特别大的特征对距离计算造成影响。数据的无量纲化可以是线性的,也可以是非...
2019-12-24 18:26:15 1075
原创 自然月日期
from calendar import Calendarimport datetimec = Calendar(firstweekday=6)list_day=[]for item in c.itermonthdates(2018,8): #print(item) #print(item.month) if item.month==8: list_day.append(item)
2021-04-06 17:33:16 189
原创 python describe
#针对变量较多,describe方法无法完全显示,因此写自定义函数,查看数值型数据中的数据分布情况#需要计算的指标:均值mean、方差std、最小值min、import numpy as npimport pandas as pdfrom scipy import statsdata=pd.read_csv()def desc(data): #筛选出数值型的数据 df=data.copy() #新建一个DataFrame,记载各变量的数据类型,便于后续筛选 .
2021-03-25 14:14:30 1095
原创 python分箱
为便于工作中计算KS和IV等值,编写一套可以沿用的代码,方便随时使用。#第一步,读取数据import pandas as pdimport numpy as npdf=pd.read_excel(r'C:\Users\***\a.xlsx')#第二步:查看所有字段的字段类型df.dtypes#新建一个DataFrame,记载各变量的数据类型,便于后续筛选df_var=pd.DataFrame(df.columns,columns=['var'])df_type=pd.DataFr
2020-11-23 18:12:39 2730 3
原创 问题集中营~待处理
1.异常值检查方法 处理方法;2.分位数的理解3.import imblearnfrom imblearn.over_sampling import SMOTEsmote=SMOTE(random_state=404)X,y=smote.fit_sample(df.iloc[:,1:],df.iloc[:,0])...
2020-03-24 18:26:06 150
原创 模型评估方法和性能指标的理解
1.混淆矩阵:混淆矩阵也称误差矩阵,是表示精度评价的一种标准格式,用n行n列的矩阵形式来表示。混淆矩阵(confusion matrix)是可视化工具,特别用于监督学习,在无监督学习一般叫做匹配矩阵。举例:对应矩阵: 结合实际工作中的专业术语: 其中,各字母所代表含义:T True 预测...
2020-03-20 15:01:43 1855
原创 K-means 使用SSE和轮廓系数
import pandas as pd import numpy as np#创造数据from sklearn.datasets import make_blobsimport matplotlib.pyplot as pltx,y=make_blobs(n_samples=500,n_features=2,centers=4,random_state=1)fig,ax1=plt...
2020-02-17 17:09:11 1842
原创 KNN 鸢尾花&癌症预测 交叉验证&网格搜索 笔记
一、交叉验证 cross_val_score:sklearn.cross_validation.cross_val_score(estimator, X, y=None, scoring=None, cv=None, n_jobs=1, verbose=0, fit_params=None, pre_dispatch=‘2*n_jobs’)参数estimator:数据对象X:...
2020-02-08 19:32:25 607
原创 .python 简单小练习
1.九九乘法表list1=[]for i in range(1,10): list1.append(i) list1.sort(reverse=True)for m in list1: # print(m) for n in range(1,m+1): print("{}*{}={}".format(m,n,m*n),end=" ...
2020-01-30 18:02:09 142
原创 数据清洗与准备
1 处理缺失值1.1 过滤缺失值:dropna()1.2 补全缺失值:fillna()1.3 数据转换1.3.1 删除重复值①duplicated方法返回的是一个布尔值series;②drop_duplicates返回的是DataFrame,内容是duplicated返回数组中为False的部分;注释:duplicated和drop_duplicates...
2020-01-28 13:13:54 174
原创 内建数据结构、函数
一、数据结构和序列1.1元组,tuple,()#元组t1=()print(type(t1))'''<class 'tuple'>'''t2=(1)print(type(t2))'''<class 'int'>'''t3=('1')print(type(t3))'''<class 'str'>'''t4=(1,)...
2020-01-27 17:44:35 175
原创 python 将数据放在邮件正文发送
#需发送的数据dataimport smtplibfrom email.mime.text import MIMETextfrom email.utils import formataddrfrom email.mime.multipart import MIMEMultipartfrom email.header import Header#发件箱my_sender='~'...
2020-01-07 15:56:30 869
原创 matplotlib 折线图
在python的matplotlib库中分别可用bar、barh、plot函数来构建它们,再使用xticks与yticks(设置坐标轴刻度)、xlabel与ylabel(设置坐标轴标签)、title(标题)、legend(图例)、xlim与ylim(设置坐标轴数据范围)、grid(设置网格线)等命令来装饰图形plot(*args, scalex=True, ...
2020-01-05 13:37:40 306
原创 爱心函数可视化 python
import numpy as npimport matplotlib.pyplot as pltx = np.linspace(-8 , 8, 1024)y1 = 0.618*np.abs(x) - 0.8* np.sqrt(64-x**2)y2 = 0.618*np.abs(x) + 0.8* np.sqrt(64-x**2) plt.plot(x, y1, color = 'r...
2020-01-05 13:22:26 361
原创 matplotlib 散点图
scatter( x, y, s=None, c=None, marker=None, cmap=None, norm=None, vmin=None, vmax=None, alpha=None, linewidths=None, verts=None, edgecolors=None, *, plotnonfinite=False, data=...
2020-01-04 20:25:27 219
原创 特征选择
可参考文章:https://www.cnblogs.com/pinard/p/9032759.html特征选择就是从原始特征中选取一些最有效的特征来降低维度,,提高模型泛化能力减低过拟合的过程,主要目的是剔除掉无关特征和冗余特征,选出最优特征子集;常见的特征选择方法可以分为3类:过滤式(filter)、包裹式(wrapper)、嵌入式(embedding)。1.过滤式filter:通过...
2020-01-03 16:23:40 638
原创 小猪佩奇代码 Python
from turtle import*def nose(x,y):#鼻子 penup()#提起笔 goto(x,y)#定位 pendown()#落笔,开始画 setheading(-30)#将乌龟的方向设置为to_angle/为数字(0-东、90-北、180-西、270-南) begin_fill()#准备开始填充图形 a=0.4 for i in ...
2020-01-02 17:47:25 2007
原创 StratifiedShuffleSplit 分层抽样
分层随机分割交叉验证器可以将数据分割为训练集和测试集,不过它只提供训练集/测试集数据在原始数据集中的位置索引。由该类生成的交叉验证对象融合了StratifiedKFold和ShuffleSplit两个函数的功能,该对象返回分层随机折,对像通过对每一类保留一定比例的样本生成折。注意:同随机分割一样,分层随机分割不保证所有折都是不同的,即使对于大数据集也不例外。原型为:class sklea...
2020-01-02 16:20:23 1210
原创 线性回归-案例1
from sklearn.datasets import load_bostonfrom sklearn.linear_model import LinearRegressionfrom sklearn.metrics import mean_squared_errorfrom sklearn.model_selection import train_test_splitfrom s...
2019-12-31 10:00:45 156
原创 等频分箱代码
如下代码,仅需将原始已处理好的需变量分析的数据读入,Y值需将字段名称修改为‘15A’即可运行。# -*- coding: utf-8 -*-""""""import pandas as pdimport numpy as npimport xlrd#from pandasql import sqldf#定义读入数据def xlsxread(self):...
2019-12-16 09:59:16 1699 2
原创 mysql中将一行转化为多行数据
之前在网上搜索了很多关于这个问题的解答方式,基本都是使用substring_index和mysql.help_topic搭配使用,方法没错,但是使用后发现运行时间太长,因此就放弃使用网上推荐的方法。可以使用substring_index和union all搭配使用;图1图2将图1变为图2,可以这样编写代码:select id,name,substring_inde...
2018-12-12 16:22:51 3713 1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人