自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(44)
  • 收藏
  • 关注

原创 np.append与append区别

今天又发现一个神奇的点,但是别问我为什么,我也没搞清楚~col_remain.values是一个array数组;**1. col_remain.values.append(‘loan_status’)运行报错:‘numpy.ndarray’ object has no attribute ‘append’np.append(col_remain,‘loan_status’)运行OK。**...

2020-12-01 16:04:08 5

原创 python日期处理 datetime

--------1.单个str转datetime,用strptime(字符串,格式)案例:将字符串‘2020-05-03’转换为日期格式--------2.series整体实现str转datetime,用map。其实还有个更好用的办法,pd.to_datetime(),我更喜欢这种方式。案例:--------3.计算距今多少天案例:先算日期差delta,再转换成days--------4.推算日期案例:给定当前时2018年12月5日,推算128天后是猴年马月?...

2020-11-26 16:16:37 34

原创 模型转化成pmml文件的实战

项目场景:sklearn机器学习建模后,为了实现模型跨平台工程化调用功能,考虑将训练好的模型转化为PMML文件,便于JAVA后台调用实战:1.简单示例:from sklearn2pmml.pipeline import PMMLPipelinefrom sklearn2pmml import sklearn2pmmlfrom sklearn.tree import DecisionTreeClassifierimport pandas as pdfrom sklearn.datasets

2020-10-19 15:39:37 73

原创 XGB模型可解释性SHAP包实战

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言1.XGB建模2.SHAP分析参考文档前言 Xgboost相对于逻辑回归模型在进行预测时往往有更好的精度,但是同时也失去了线性模型的可解释性。Feature importance可以直观地反映出特征的重要性,看出哪些特征对最终的模型影响较大。但是无法判断特征与最终预测结果的关系是如何的。Lundberg和Lee的论文提出了SHAP值这一广泛适用的方法用来解释各种模型(分类以及回归),如boosting和神经网络模型。

2020-10-16 18:29:00 174 1

原创 pd.get_dummies与OneHotEncoder区别

同样是对分类变量编码pd.get_dummies一次只能对一列编码处理OneHotEncoder可fit_transform一次性处理

2020-10-14 11:42:49 40 3

原创 决策树与集成学习练习

感谢菜菜~~集成学习(ensemble learning)是时下非常流行的机器学习算法,它本身不是一个单独的机器学习算法,而是通 过在数据上构建多个模型,集成所有模型的建模结果。基本上所有的机器学习领域都可以看到集成学习的身影,在 现实中集成学习也有相当大的作用,它可以用来做市场营销模拟的建模,统计客户来源,保留和流失,也可用来预 测疾病的风险和病患者的易感性。在现在的各种算法竞赛中,随机森林,梯度提升树(GBDT),Xgboost等集成 算法的身影也随处可见,可见其效果之好,应用之广。多个模型集成成为

2020-10-12 14:53:35 31

原创 mysql练手

sql 练手#1. 标准化处理:先把min,max查出来作为一列,再套一层查询计算SELECT b.*, (b.01_score - b.01_min)/(b.01_max - b.01_min) as 01_scaleFROM ( SELECT a.*, ( SELECT max( 01_score ) FROM score_hb ) AS 01_max, ( SELECT min( 01_score ) FROM score_hb ) AS 01_min

2020-09-30 11:41:48 4

原创 今日练手

练手:1.固定取df中每天每个时段的数据:import pandas as pdfrom datetime import timedf=pd.DataFrame({'x':np.random.randn(30)},index=pd.date_range('2020-09-01 13:00:50',freq='1h',periods=30))df[(time(13,0,0,0)<df.index.time )& (time(15,0,0,0)>df.index.time )]

2020-09-28 14:26:20 3

原创 分层抽样

分层抽样import pandas as pd import numpy as npdf=pd.DataFrame(np.random.randn(20).reshape(10,2))df['2'] = [5,5,5,5,5,2,2,2,3,3]typicalNDict={ 5:3, 2:2, 3:1 } #函数定义 def typicalsamling(group,typicalNDict): name=group

2020-09-27 12:03:11 26

原创 python读取非标准化文件

读取非标准化文件介绍方法一:pd.read_csvimport pandas as pddf = pd.read_csv(r'C:\Users\lee\Desktop\s.dat',encoding='utf-8',sep=' ')方法二:with opent = []with open(r'C:\Users\lee\Desktop\s.dat') as f: for i in f.readlines(): print(i) t.append(i.rs

2020-09-03 18:02:58 35

原创 xlearn安装中的问题解决

xlearn-0.4.4已经可以在windows上使用了。首先,确保安装好CMake,官网选择.msi的文件下载安装。C++我没有理会。pip install xlearn 显示成功import xlearn 报错:Cannot find xlearn Library in the candidate path绝望的时刻来了:百度了很多帖子都没法解决。git也下载不了一键执行的.bat文件。【解决办法】:鬼使神差看到xlearn官网https://xlearn-doc.readthedocs.i

2020-08-13 14:23:13 87

原创 keras对服装图像进行分类

信心很重要,加油!!目标:训练了一个神经网络模型来对运动鞋和衬衫等衣物的图像进行分类。import tensorflow as tffrom tensorflow import kerasimport matplotlib.pyplot as plt1.导入Fashion MNIST数据集(train_images, train_labels), (test_images, test_labels) = keras.datasets.fashion_mnist.load_data()clas

2020-08-04 18:31:37 99

原创 创建虚拟环境-安装keras踩过的坑

凡是信心很重要,首先,这事很简单,不要畏难,一步一步操作就OK~~1.创建新环境conda create --tf2.0 python=3.72.激活环境conda activate tf2.03.安装tensorflowpip install --upgrade pippip install tensorflow坑来了:巴拉巴拉冲突,要测试新的解析器,请使用–use-feature=2020-resolver标志。解决:pip install tensorflow --use-feat

2020-08-04 10:23:01 1637

原创 按一定条件筛选df1,返回结果中df1的索引取df2的数据

每日一题:df1,df2已知,按一定条件筛选df1,返回结果中df1的索引取df2的数据?df1 = pd.DataFrame(np.random.random(50).reshape(25,2))df2 = pd.DataFrame(np.random.randint(100,size=50).reshape(25,2))解决:df2.loc[df1[df1[0]>0].index] 即可知识点:**1.random.randint(low,high,size)生成整数,至少要2个

2020-07-31 16:35:49 130

原创 toad建立评分卡

尝试用toad建评分卡import pandas as pdimport numpy as npimport toadfrom toad.plot import bin_plotfrom toad.plot import badrate_plotfrom sklearn.model_selection import train_test_splitfrom sklearn.linear_model import LogisticRegressionfrom toad.metrics impo

2020-07-21 17:52:01 424

原创 照片换底色~~勉强能看

照片就不放了,直接动手,看看怎么换照片底色吧。但是不得不说,PS玩得好替换效果肯定比这好。参考博文:https://mp.weixin.qq.com/s/Cgg8PlIzx-ZXU_sEeGVKsw第一步 装包避坑:直接装cv2会报错,所以promt里装了另外一个包,pip install opencv-python。这个包已经包含了cv2。import cv2import numpy as np第二步 读取展示图片避坑:imshow和waitKey命令要一起运行,否则无法显示图片。另外w

2020-07-13 18:12:41 94

原创 基于密度聚类的探索

基于密度聚类的探索~~~~from sklearn.cluster import DBSCANfrom sklearn import preprocessingimport pandas as pdimport numpy as npfrom sklearn.manifold import MDSimport matplotlib.pyplot as pltfrom collections import Counterdf = pd.read_excel('D:/Acompany/Abus

2020-06-10 18:14:53 110

原创 pyod 模型组合实例

pyod —— 模型组合实例代码参考地址:https://github.com/yzhao062/pyod/blob/master/examples/comb_example.py离群值检测由于其不受监督的性质而经常遭受模型不稳定性的困扰。因此,建议例如通过求平均来组合各种检测器输出以提高其鲁棒性。此演示中显示了四种分数组合机制:1.平均值:所有检测器的平均分数。2.最大化:所有探测器的最高分。3.平均值的最大值(AOM):将基本检测器划分为子组,并为每个子组获取最大分数。最终分数是所有子组分数

2020-06-08 15:24:44 125

原创 等高线画法

等高线画法,x,y分别为横纵坐标轴,一般会线性的使用x,y=np.meshgrid()将坐标轴切分到最细单位,本例未使用该函数,即隐形切分(x,y)至最细网格,可以想象成纳米那么细致的网格吧。x取值范围在[1,2],y取值范围在[3,4]。(1,3)对应z=1映射到red(2,3)对应z=2映射到blue(1,4)对应z=2映射到blue(2,4)对应z=3映射到lightgreenimport numpy as npimport matplotlib.pyplot as pltf

2020-06-05 16:07:20 176

原创 各种算法的回归效果

目前看来knn与gbrt效果挺好花絮:python各种知识点1.自定义函数,结尾请用return返回结果方便调用2.np.arange:产生等差数列3.f - string:Python 字符串的格式化,从 %格式到 format再到 f-string,格式化的方式是越来越直观,同时 f-string 的效率似乎也比前两个高。参考文档 :https://www.cnblogs.com/traditional/p/9445930.html#回归import numpy as npimport

2020-06-05 15:46:31 63

原创 DBSCAN与KMeans对比

DBSCAN也是基于密度的聚类算法超参数:EPS领域半径Mmpts 核心点领域内点个数的阈值核心概念:核心点:一个对象在其半径内含有>Mmpts数目的点,则该点为核心点边界点:一个对象在其半径内含有<Mmpts数目的点,但改对象落在核心点的领域内,则该点为边界点噪音点:既不是核心点,也不是边界点的点。import numpy as npimport matplotlib.pyplot as pltfrom sklearn import datasets.

2020-05-26 18:22:11 554

原创 关联规则分析

#关联规则from apyori import aprioristore_data = pd.read_csv(r'D:/Download/apriori算法示例及数据/apriori算法示例及数据/store_data.csv', header=None).fillna('')store_data.head()#读取csv文件,将每一行按逗号分割存成一个List,然后整体存储成List,类似这种形式List[[],[],[]]# records = []# with open(r'D:/D

2020-05-26 15:43:40 408

原创 networkx网络关系图

import networkx as nximport matplotlib.pyplot as pltfrom networkx.algorithms.community import k_clique_communitiesG = nx.read_gml(‘D:\Download\dolphins\dolphins.gml’)klist = list(k_clique_communities(G,5))#plottingpos = nx.spring_layout(G)plt.clf()

2020-05-19 17:01:44 508

原创 Wrapper递归特征消除 (Recursive Feature Elimination)

特征选择三法宝:过滤法(Filter)、包裹法(Wrapper)、嵌入法(Embedding)过滤法(Filter):按照发散性或者相关性对各个特征进行评分,设定阈值或者待选择阈值的个数,选择特征包裹法(Wrapper):根据目标函数,每次选择若干特征或者排除若干特征,直到选择出最佳的子集。嵌入法(Embedding):先使用某些机器学习的算法和模型进行训练,得到各个特征的权值系数,根据系数从大到小选择特征。类似于Filter方法,但是是通过训练来确定特征的优劣。递归消除特征法使用一个基模型.

2020-05-12 17:39:52 264

原创 python-余弦相似度

余弦相似度相关系数import jiebaimport mathimport numpy as np#——————————————————————————创建样本与分词———————————————————————————————————————s1='本周末去钓鱼's1_cut=[i for i in jieba.cut(s1,cut_all=True)]s2='下周去花卉市场买花's2_cut=[i for i in jieba.cut(s2,cut_all=True)]wor

2020-05-11 16:08:09 225

原创 mysql_8.0.20(zip版) 从安装到连接扫雷篇

一、如何卸载mysql服务(1)删除注册表的bla…bla在win10的控制面版-程序-卸载程序,找不到mysql,于是在从注册表入手:快捷键win+r输入regedit进入注册表,找到HKEY_LOCAL_MACHINE\SYSTEM\ControlSet001\Services\Eventlog\Application\MySQL文件夹删除删除HKEY_LOCAL_MACHINE\SY...

2020-04-29 15:08:51 871

原创 sql-各时点上客户近两个月的交易次数

一、创建数据CREATE TABLE `sheet1` ( `data_date` DOUBLE , `class` DOUBLE , `name` VARCHAR (765)); INSERT INTO `sheet1` (`data_date`, `class`, `name`) VALUES('20200401','1','A');INSERT INTO `sheet1` (...

2020-04-27 15:57:44 94

原创 sas-聚类

data examp632;input province$ x1-x9;cards; 北京 12418 11648 19541 3813 16554 17148 6416 1335.37 1031.43 天津 6015 ...

2020-04-23 17:07:23 60

原创 sas-sql

目标:数据共有81行观测,需要统计出每组make下cou最大的值:data test.a(keep=make drivetrain);set sashelp.cars;proc print data=a;run;proc sql;create table test.b as select * from(select make,drivetrain,count(*) as co...

2020-04-21 17:31:21 87

原创 sas-intnx与intck时间处理

一、推算未来日期:INTNX(interval,from,n) 计算从from开始经过n个in间隔后的SAS日期。其中interval 可以取’YEAR’、‘QTR’、‘MONTH’、‘WEEK’、'DAY’等。data;in_3m=intnx('month','16JAN2020'd,3);put in_3m;format in_3m yymmdd10.;run; 结果如...

2020-04-20 18:17:12 434

原创 sas retain和_all_

sas小知识点:retain:对变量进行值的初始化和保留到下一个迭代步all:从SAS日志中的数据步骤打印结果put()函数:把数值型或字符型变量转为字符型变量input()函数:将字符型变量转化为数值型变量input:读取变量put:在日志窗口显示变量的值未使用retain:______data d;put "初始化结果:" _all_;input x@@;put "逐步显...

2020-04-20 16:05:10 163

原创 sas-宏程序

%macro(参数1,参数2,…)处理过程…%mend;原表如下:%macro show_result(a,b);proc print data = sastest.t3;title 'laon1 of dti > &a and dti < &b';where dti >&a and dti <&b;run;%mend;...

2020-04-02 17:46:31 188

原创 sas-arima时间序列(打败自己是自己)

data sastest.ex1;input price @@;time=intnx('week','13oct2006'd,_n_-1);format time date7.;cards;10.3000 8.5269 9.0421 10.1727 9.9079 8.9714 9.0145 9.4738 9.5258 9.701710.0582 9.5292 8.9786 9.174...

2020-04-02 15:35:09 477 4

原创 sas-排序

深刻理解SAS一步一步实现,一步一步运行data test.t6;set test.t5;proc print data=test.t6 ;where dti <5 ;run;proc sort data=test.t6;by annual_inc descending dti;proc print data = test.t6;run;...

2020-03-27 18:14:23 240

原创 SAS-从excel导入数据

读取方式一:proc importlibname 制定逻辑库名 逻辑库地址;data步创建数据集;proc import 读取excel数据,参数如下:out 输出数据集名;datafile 读取的数据地址;dbms 可以是xlsx或者xls replace;sheets 选择excel表单名;getnames 选择YES表示读取的第一行数据为变量名;run;libname t...

2020-03-27 16:13:50 691

原创 matplotlib画图-子图设置

画了一堆子图,发现 figsize=size、plt.subplots_adjust、plt.tight_layout之间有冲突,测试完,在来补充import numpy as npimport pandas as pdimport matplotlib.pyplot as plt%matplotlib inlineplt.rcParams['font.sans-serif']=['Si...

2019-12-20 15:55:42 72

原创 pyplot填充颜色

import numpy as npimport matplotlib.pyplot as plta=np.random.randint(10,100,20)b=a.shape[0]co=['r','g']plt.bar(range(b),a,color=[co[0] if i<40 else co[i] for i in a],alpha=0.6)

2019-12-17 09:52:38 507

原创 sklearn线性回归

导包import pandas as pdimport numpy as npfrom sklearn import preprocessingfrom sklearn.model_selection import train_test_splitfrom sklearn import linear_modelimport matplotlib.pyplot as plt#读取数据...

2019-12-16 17:25:39 37

原创 ppt中插入html文档

首先,打开PPT,开发工具——加载项——应用商店——搜索“html”然后,把html的代码粘贴到里面点击运行可能会报错,多点几次运行,然后可能显示图例但不显示主图,没关系,可能是隐式表达,点击图例控制,主图就出来了...

2019-12-10 19:17:57 1963 8

原创 pyecharts全国地图和省级地图和水滴图

from pyecharts.charts import Mapfrom pyecharts import options as opts省级地图value_1 = [155, 10, 66]attr_1 = ["成都市","绵阳市","泸州市"]value_2 = [200, 100, 166]attr_2 = ["宜宾市","凉山彝族自治州","攀枝花市"]def map_v...

2019-12-09 18:02:40 1505

空空如也

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除