椰风风风档不住-CSDN博客

一、链接数据库，获取原始数据import pandas as pd import pymysqlconn = pymysql.connect( host="10.75.31.62", user="zjxczsdb", password="we4r3Gyhje", database="zhuji_online", charset="utf8" )cursor = conn.cursor() # 执行完毕返回的结果集默认以元组显示sql1

2021-12-24 12:02:02 4285

转载分组排名 mysql

https://www.cnblogs.com/niniya/p/9046449.html分组排名牛逼！！

2021-12-15 19:52:18 239

原创 streamlit写个简单的页面

基于streamlit框架，采用python写个简单的页面1. 首先st.write写好网页展示信息，保存为app.pyimport streamlit as stimport pandas as pdimport matplotlib.pyplot as plt import numpy as npst.title("hello ")col1, col2, col3 = st.columns(3)with col1: st.header("lalala") st.imag

2021-12-02 11:53:29 4219

原创 2021-06-25

最近参加了 to G项目，尝试做一些产品经理的工作。比如，开发同事会更加关注可扩展性，他们更加喜欢纵向思维，把字段放在字典里面……

2021-06-25 17:36:54 146

原创 wordcloud制作词云，并填中文显示的坑

from wordcloud import WordCloud,STOPWORDSfrom PIL import Imageimport numpy as npimport jiebap =r'C:\Users\lee\Desktop\text.txt'text = open(p,'r').read()w = list(jieba.cut(text))ww = ','.join(w)stopwords = set(STOPWORDS) # 这是英文的停词192个，没什么用坑在这里：

2021-05-13 15:18:06 581

原创 hmmlearn训练HMM模型

hmmlearn实现了三种HMM模型类，按照观测状态是连续状态还是离散状态，可以分为两类。GaussianHMM和GMMHMM是连续观测状态的HMM模型，而MultinomialHMM是离散观测状态的模型，今天讲讲后者。HMM介绍一、HMM预测最可能的状态序列import numpy as npimport pandas as pdfrom hmmlearn import hmmstates = ["box 1", "box 2", "box3"]n_states = len(states

2021-05-12 15:28:24 2198

原创华为matebook13重装系统后指纹解锁功能失效的解决办法

没有了指纹解锁，逼格降低一半。切入正题：重装的是2018版的企业版系统。因为我喜欢超级纯净的系统，朋友给了一个系统镜像。安装好后，用win+r 输入cmd可以查看windows系统版本号：Microsoft Windows [版本 10.0.17763.316]问题：重装系统后，我安装了华为管家一键安装驱动。然而，指纹解锁失效。售后工程师还解释可能是版本不支持，或者不兼容，我反怼了回去，因为我觉得这个小功能一定是哪里没设置好，才会失效的。说中间的曲折就省略一千字，重要的提一提，懂得都懂~1.在官

2021-05-04 10:43:46 22287

原创 python-文本分析

################## 文本分析 #########################import jiebaimport pandas as pdfrom nltk.corpus import stopwordsimport numpy as np# 分词with open(r'C:\Users\lee\Desktop\s.txt','r',encoding='utf-8') as f: txt = f.read()b = jieba.lcut(txt)# 去停词

2021-04-28 10:16:18 549

原创 python-ARIMA

import pandas as pdimport matplotlib.pyplot as pltfrom statsmodels.tsa.arima.model import ARIMAfrom statsmodels.tsa.stattools import adfuller, acf, pacffrom statsmodels.graphics.tsaplots import plot_acf,plot_pacffrom statsmodels.stats.diagnostic impor

2021-04-28 10:14:38 637

原创 linux搭建anaconda和jupyternotebook

1.用xshell链接服务器 2.linux下载安装anaconda分两步百度下就好，不难2.1下载anacondaanaconda下载链接我默认装载了root目录下 wget https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-2020.11-Linux-x86_64.sh2.2 安装anacondabash Anaconda3-2020.11-Linux-x86_64.sh2.3 配置anaconda环境

2021-04-23 11:54:15 709 2

原创 plotly_express包

plotly_express包感谢分享：Plotly Express使用教程https://www.sitstars.com/archives/84/刚接触到这个可视化包，觉得好玩。测试了下官方示例，代码正常运行，但是绚丽无比的图片没有显示出来，找了一下午解决方案。环境Python 3.7，spyder1.安装plotly_express包pip install plotly_express # 安装2.画图import plotly.express as pximport plotly

2021-04-16 16:17:46 1820

转载 ks计算 python

原文转载于：https://www.jb51.net/article/181802.htm感谢作者在金融领域中，我们的y值和预测得到的违约概率刚好是两个分布未知的两个分布。好的信用风控模型一般从准确性、稳定性和可解释性来评估模型。一般来说。好人样本的分布同坏人样本的分布应该是有很大不同的，KS正好是有效性指标中的区分能力指标：KS用于模型风险区分能力进行评估，KS指标衡量的是好坏样本累计分布之间的差值。好坏样本累计差异越大，KS指标越大，那么模型的风险区分能力越强。1、crossta..

2021-01-18 14:33:59 1830

原创 np.append与append区别

今天又发现一个神奇的点，但是别问我为什么，我也没搞清楚~col_remain.values是一个array数组；**1. col_remain.values.append(‘loan_status’)运行报错：‘numpy.ndarray’ object has no attribute ‘append’np.append(col_remain,‘loan_status’)运行OK。**...

2020-12-01 16:04:08 938

原创 python日期处理 datetime

--------1.单个str转datetime,用strptime(字符串，格式)案例：将字符串‘2020-05-03’转换为日期格式--------2.series整体实现str转datetime,用map。其实还有个更好用的办法，pd.to_datetime()，我更喜欢这种方式。案例：--------3.计算距今多少天案例：先算日期差delta，再转换成days--------4.推算日期案例：给定当前时2018年12月5日，推算128天后是猴年马月？...

2020-11-26 16:16:37 286

原创模型转化成pmml文件的实战

项目场景：sklearn机器学习建模后，为了实现模型跨平台工程化调用功能，考虑将训练好的模型转化为PMML文件，便于JAVA后台调用实战：1.简单示例：from sklearn2pmml.pipeline import PMMLPipelinefrom sklearn2pmml import sklearn2pmmlfrom sklearn.tree import DecisionTreeClassifierimport pandas as pdfrom sklearn.datasets

2020-10-19 15:39:37 1930

原创 XGB模型可解释性SHAP包实战

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言1.XGB建模2.SHAP分析参考文档前言 Xgboost相对于逻辑回归模型在进行预测时往往有更好的精度，但是同时也失去了线性模型的可解释性。Feature importance可以直观地反映出特征的重要性，看出哪些特征对最终的模型影响较大。但是无法判断特征与最终预测结果的关系是如何的。Lundberg和Lee的论文提出了SHAP值这一广泛适用的方法用来解释各种模型（分类以及回归），如boosting和神经网络模型。

2020-10-16 18:29:00 4613 5

原创 pd.get_dummies与OneHotEncoder区别

同样是对分类变量编码pd.get_dummies一次只能对一列编码处理OneHotEncoder可fit_transform一次性处理

2020-10-14 11:42:49 1243 3

原创决策树与集成学习练习

感谢菜菜~~集成学习（ensemble learning）是时下非常流行的机器学习算法，它本身不是一个单独的机器学习算法，而是通过在数据上构建多个模型，集成所有模型的建模结果。基本上所有的机器学习领域都可以看到集成学习的身影，在现实中集成学习也有相当大的作用，它可以用来做市场营销模拟的建模，统计客户来源，保留和流失，也可用来预测疾病的风险和病患者的易感性。在现在的各种算法竞赛中，随机森林，梯度提升树（GBDT），Xgboost等集成算法的身影也随处可见，可见其效果之好，应用之广。多个模型集成成为

2020-10-12 14:53:35 318

原创 mysql练手

sql 练手#1. 标准化处理：先把min,max查出来作为一列，再套一层查询计算SELECT b.*, (b.01_score - b.01_min)/(b.01_max - b.01_min) as 01_scaleFROM ( SELECT a.*, ( SELECT max( 01_score ) FROM score_hb ) AS 01_max, ( SELECT min( 01_score ) FROM score_hb ) AS 01_min

2020-09-30 11:41:48 167 1

原创今日练手

练手：1.固定取df中每天每个时段的数据：import pandas as pdfrom datetime import timedf=pd.DataFrame({'x':np.random.randn(30)},index=pd.date_range('2020-09-01 13:00:50',freq='1h',periods=30))df[(time(13,0,0,0)<df.index.time )& (time(15,0,0,0)>df.index.time )]

2020-09-28 14:26:20 108

原创分层抽样

分层抽样import pandas as pd import numpy as npdf=pd.DataFrame(np.random.randn(20).reshape(10,2))df['2'] = [5,5,5,5,5,2,2,2,3,3]typicalNDict={ 5:3, 2:2, 3:1 } #函数定义 def typicalsamling(group,typicalNDict): name=group

2020-09-27 12:03:11 627

原创 python读取非标准化文件

读取非标准化文件介绍方法一：pd.read_csvimport pandas as pddf = pd.read_csv(r'C:\Users\lee\Desktop\s.dat',encoding='utf-8',sep=' ')方法二：with opent = []with open(r'C:\Users\lee\Desktop\s.dat') as f: for i in f.readlines(): print(i) t.append(i.rs

2020-09-03 18:02:58 514

原创 xlearn安装中的问题解决

xlearn-0.4.4已经可以在windows上使用了。首先，确保安装好CMake,官网选择.msi的文件下载安装。C++我没有理会。pip install xlearn 显示成功import xlearn 报错：Cannot find xlearn Library in the candidate path绝望的时刻来了：百度了很多帖子都没法解决。git也下载不了一键执行的.bat文件。【解决办法】：鬼使神差看到xlearn官网https://xlearn-doc.readthedocs.i

2020-08-13 14:23:13 2001 5

原创 keras对服装图像进行分类

信心很重要，加油！！目标：训练了一个神经网络模型来对运动鞋和衬衫等衣物的图像进行分类。import tensorflow as tffrom tensorflow import kerasimport matplotlib.pyplot as plt1.导入Fashion MNIST数据集(train_images, train_labels), (test_images, test_labels) = keras.datasets.fashion_mnist.load_data()clas

2020-08-04 18:31:37 518

原创创建虚拟环境-安装keras踩过的坑

凡是信心很重要，首先，这事很简单，不要畏难，一步一步操作就OK~~1.创建新环境conda create --tf2.0 python=3.72.激活环境conda activate tf2.03.安装tensorflowpip install --upgrade pippip install tensorflow坑来了：巴拉巴拉冲突，要测试新的解析器，请使用–use-feature=2020-resolver标志。解决：pip install tensorflow --use-feat

2020-08-04 10:23:01 2906

原创按一定条件筛选df1，返回结果中df1的索引取df2的数据

每日一题：df1,df2已知，按一定条件筛选df1，返回结果中df1的索引取df2的数据？df1 = pd.DataFrame(np.random.random(50).reshape(25,2))df2 = pd.DataFrame(np.random.randint(100,size=50).reshape(25,2))解决：df2.loc[df1[df1[0]>0].index] 即可知识点：**1.random.randint(low,high,size)生成整数，至少要2个

2020-07-31 16:35:49 1091

原创 toad建立评分卡

尝试用toad建评分卡import pandas as pdimport numpy as npimport toadfrom toad.plot import bin_plotfrom toad.plot import badrate_plotfrom sklearn.model_selection import train_test_splitfrom sklearn.linear_model import LogisticRegressionfrom toad.metrics impo

2020-07-21 17:52:01 2820 6

原创照片换底色~~勉强能看

照片就不放了，直接动手，看看怎么换照片底色吧。但是不得不说，PS玩得好替换效果肯定比这好。参考博文：https://mp.weixin.qq.com/s/Cgg8PlIzx-ZXU_sEeGVKsw第一步装包避坑：直接装cv2会报错，所以promt里装了另外一个包，pip install opencv-python。这个包已经包含了cv2。import cv2import numpy as np第二步读取展示图片避坑：imshow和waitKey命令要一起运行，否则无法显示图片。另外w

2020-07-13 18:12:41 399

原创基于密度聚类的探索

基于密度聚类的探索~~~~from sklearn.cluster import DBSCANfrom sklearn import preprocessingimport pandas as pdimport numpy as npfrom sklearn.manifold import MDSimport matplotlib.pyplot as pltfrom collections import Counterdf = pd.read_excel('D:/Acompany/Abus

2020-06-10 18:14:53 283

原创 pyod 模型组合实例

pyod —— 模型组合实例代码参考地址：https://github.com/yzhao062/pyod/blob/master/examples/comb_example.py离群值检测由于其不受监督的性质而经常遭受模型不稳定性的困扰。因此，建议例如通过求平均来组合各种检测器输出以提高其鲁棒性。此演示中显示了四种分数组合机制：1.平均值：所有检测器的平均分数。2.最大化：所有探测器的最高分。3.平均值的最大值（AOM）：将基本检测器划分为子组，并为每个子组获取最大分数。最终分数是所有子组分数

2020-06-08 15:24:44 695

原创等高线画法

等高线画法，x,y分别为横纵坐标轴，一般会线性的使用x,y=np.meshgrid()将坐标轴切分到最细单位，本例未使用该函数，即隐形切分（x,y）至最细网格，可以想象成纳米那么细致的网格吧。x取值范围在[1,2],y取值范围在[3,4]。（1，3）对应z=1映射到red（2，3）对应z=2映射到blue（1，4）对应z=2映射到blue（2，4）对应z=3映射到lightgreenimport numpy as npimport matplotlib.pyplot as pltf

2020-06-05 16:07:20 1829

原创各种算法的回归效果

目前看来knn与gbrt效果挺好花絮：python各种知识点1.自定义函数，结尾请用return返回结果方便调用2.np.arange：产生等差数列3.f - string：Python 字符串的格式化，从 %格式到 format再到 f-string，格式化的方式是越来越直观，同时 f-string 的效率似乎也比前两个高。参考文档：https://www.cnblogs.com/traditional/p/9445930.html#回归import numpy as npimport

2020-06-05 15:46:31 472

原创 DBSCAN与KMeans对比

DBSCAN也是基于密度的聚类算法超参数：EPS领域半径Mmpts 核心点领域内点个数的阈值核心概念：核心点：一个对象在其半径内含有>Mmpts数目的点，则该点为核心点边界点：一个对象在其半径内含有<Mmpts数目的点，但改对象落在核心点的领域内，则该点为边界点噪音点：既不是核心点，也不是边界点的点。import numpy as npimport matplotlib.pyplot as pltfrom sklearn import datasets.

2020-05-26 18:22:11 3917

原创关联规则分析

#关联规则from apyori import aprioristore_data = pd.read_csv(r'D:/Download/apriori算法示例及数据/apriori算法示例及数据/store_data.csv', header=None).fillna('')store_data.head()#读取csv文件，将每一行按逗号分割存成一个List，然后整体存储成List,类似这种形式List[[],[],[]]# records = []# with open(r'D:/D

2020-05-26 15:43:40 910

原创 networkx网络关系图

import networkx as nximport matplotlib.pyplot as pltfrom networkx.algorithms.community import k_clique_communitiesG = nx.read_gml(‘D:\Download\dolphins\dolphins.gml’)klist = list(k_clique_communities(G,5))#plottingpos = nx.spring_layout(G)plt.clf()

2020-05-19 17:01:44 2346 2

原创 Wrapper递归特征消除 (Recursive Feature Elimination)

特征选择三法宝：过滤法（Filter）、包裹法（Wrapper）、嵌入法（Embedding）过滤法（Filter）：按照发散性或者相关性对各个特征进行评分，设定阈值或者待选择阈值的个数，选择特征包裹法（Wrapper）：根据目标函数，每次选择若干特征或者排除若干特征，直到选择出最佳的子集。嵌入法（Embedding）：先使用某些机器学习的算法和模型进行训练，得到各个特征的权值系数，根据系数从大到小选择特征。类似于Filter方法，但是是通过训练来确定特征的优劣。递归消除特征法使用一个基模型.

2020-05-12 17:39:52 1711

原创 python-余弦相似度

余弦相似度相关系数import jiebaimport mathimport numpy as np#——————————————————————————创建样本与分词———————————————————————————————————————s1='本周末去钓鱼's1_cut=[i for i in jieba.cut(s1,cut_all=True)]s2='下周去花卉市场买花's2_cut=[i for i in jieba.cut(s2,cut_all=True)]wor

2020-05-11 16:08:09 1857

原创 mysql_8.0.20(zip版) 从安装到连接扫雷篇

一、如何卸载mysql服务（1）删除注册表的bla…bla在win10的控制面版-程序-卸载程序，找不到mysql,于是在从注册表入手：快捷键win+r输入regedit进入注册表，找到HKEY_LOCAL_MACHINE\SYSTEM\ControlSet001\Services\Eventlog\Application\MySQL文件夹删除删除HKEY_LOCAL_MACHINE\SY...

2020-04-29 15:08:51 1170

原创 sql-各时点上客户近两个月的交易次数

一、创建数据CREATE TABLE `sheet1` ( `data_date` DOUBLE , `class` DOUBLE , `name` VARCHAR (765)); INSERT INTO `sheet1` (`data_date`, `class`, `name`) VALUES('20200401','1','A');INSERT INTO `sheet1` (...

2020-04-27 15:57:44 1324

空空如也

空空如也