- 博客(57)
- 收藏
- 关注
原创 python实现词云且更换背景图片
一、链接数据库,获取原始数据import pandas as pd import pymysqlconn = pymysql.connect( host="10.75.31.62", user="zjxczsdb", password="we4r3Gyhje", database="zhuji_online", charset="utf8" )cursor = conn.cursor() # 执行完毕返回的结果集默认以元组显示sql1
2021-12-24 12:02:02 4130
原创 streamlit写个简单的页面
基于streamlit框架,采用python写个简单的页面1. 首先st.write写好网页展示信息,保存为app.pyimport streamlit as stimport pandas as pdimport matplotlib.pyplot as plt import numpy as npst.title("hello ")col1, col2, col3 = st.columns(3)with col1: st.header("lalala") st.imag
2021-12-02 11:53:29 3949
原创 2021-06-25
最近参加了 to G项目,尝试做一些产品经理的工作。比如,开发同事会更加关注可扩展性,他们更加喜欢纵向思维,把字段放在字典里面……
2021-06-25 17:36:54 102
原创 wordcloud制作词云,并填中文显示的坑
from wordcloud import WordCloud,STOPWORDSfrom PIL import Imageimport numpy as npimport jiebap =r'C:\Users\lee\Desktop\text.txt'text = open(p,'r').read()w = list(jieba.cut(text))ww = ','.join(w)stopwords = set(STOPWORDS) # 这是英文的停词192个,没什么用坑在这里:
2021-05-13 15:18:06 492
原创 hmmlearn训练HMM模型
hmmlearn实现了三种HMM模型类,按照观测状态是连续状态还是离散状态,可以分为两类。GaussianHMM和GMMHMM是连续观测状态的HMM模型,而MultinomialHMM是离散观测状态的模型,今天讲讲后者。HMM介绍一、HMM预测最可能的状态序列import numpy as npimport pandas as pdfrom hmmlearn import hmmstates = ["box 1", "box 2", "box3"]n_states = len(states
2021-05-12 15:28:24 2014
原创 华为matebook13重装系统后指纹解锁功能失效的解决办法
没有了指纹解锁,逼格降低一半。切入正题:重装的是2018版的企业版系统。因为我喜欢超级纯净的系统,朋友给了一个系统镜像。安装好后,用win+r 输入cmd可以查看windows系统版本号:Microsoft Windows [版本 10.0.17763.316]问题:重装系统后,我安装了华为管家一键安装驱动。然而,指纹解锁失效。售后工程师还解释可能是版本不支持,或者不兼容,我反怼了回去,因为我觉得这个小功能一定是哪里没设置好,才会失效的。说中间的曲折就省略一千字,重要的提一提,懂得都懂~1.在官
2021-05-04 10:43:46 19507
原创 python-文本分析
################## 文本分析 #########################import jiebaimport pandas as pdfrom nltk.corpus import stopwordsimport numpy as np# 分词with open(r'C:\Users\lee\Desktop\s.txt','r',encoding='utf-8') as f: txt = f.read()b = jieba.lcut(txt)# 去停词
2021-04-28 10:16:18 452
原创 python-ARIMA
import pandas as pdimport matplotlib.pyplot as pltfrom statsmodels.tsa.arima.model import ARIMAfrom statsmodels.tsa.stattools import adfuller, acf, pacffrom statsmodels.graphics.tsaplots import plot_acf,plot_pacffrom statsmodels.stats.diagnostic impor
2021-04-28 10:14:38 551
原创 linux搭建anaconda和jupyternotebook
1.用xshell链接服务器 2.linux下载安装anaconda分两步百度下就好,不难2.1下载anacondaanaconda下载链接我默认装载了root目录下 wget https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-2020.11-Linux-x86_64.sh2.2 安装anacondabash Anaconda3-2020.11-Linux-x86_64.sh2.3 配置anaconda环境
2021-04-23 11:54:15 613 2
原创 plotly_express包
plotly_express包感谢分享:Plotly Express使用教程https://www.sitstars.com/archives/84/刚接触到这个可视化包,觉得好玩。测试了下官方示例,代码正常运行,但是绚丽无比的图片没有显示出来,找了一下午解决方案。环境Python 3.7,spyder1.安装plotly_express包pip install plotly_express # 安装2.画图import plotly.express as pximport plotly
2021-04-16 16:17:46 1566
转载 ks计算 python
原文转载于:https://www.jb51.net/article/181802.htm感谢作者在金融领域中,我们的y值和预测得到的违约概率刚好是两个分布未知的两个分布。好的信用风控模型一般从准确性、稳定性和可解释性来评估模型。一般来说。好人样本的分布同坏人样本的分布应该是有很大不同的,KS正好是有效性指标中的区分能力指标:KS用于模型风险区分能力进行评估,KS指标衡量的是好坏样本累计分布之间的差值。好坏样本累计差异越大,KS指标越大,那么模型的风险区分能力越强。1、crossta..
2021-01-18 14:33:59 1591
原创 np.append与append区别
今天又发现一个神奇的点,但是别问我为什么,我也没搞清楚~col_remain.values是一个array数组;**1. col_remain.values.append(‘loan_status’)运行报错:‘numpy.ndarray’ object has no attribute ‘append’np.append(col_remain,‘loan_status’)运行OK。**...
2020-12-01 16:04:08 846
原创 python日期处理 datetime
--------1.单个str转datetime,用strptime(字符串,格式)案例:将字符串‘2020-05-03’转换为日期格式--------2.series整体实现str转datetime,用map。其实还有个更好用的办法,pd.to_datetime(),我更喜欢这种方式。案例:--------3.计算距今多少天案例:先算日期差delta,再转换成days--------4.推算日期案例:给定当前时2018年12月5日,推算128天后是猴年马月?...
2020-11-26 16:16:37 239
原创 模型转化成pmml文件的实战
项目场景:sklearn机器学习建模后,为了实现模型跨平台工程化调用功能,考虑将训练好的模型转化为PMML文件,便于JAVA后台调用实战:1.简单示例:from sklearn2pmml.pipeline import PMMLPipelinefrom sklearn2pmml import sklearn2pmmlfrom sklearn.tree import DecisionTreeClassifierimport pandas as pdfrom sklearn.datasets
2020-10-19 15:39:37 1694
原创 XGB模型可解释性SHAP包实战
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言1.XGB建模2.SHAP分析参考文档前言 Xgboost相对于逻辑回归模型在进行预测时往往有更好的精度,但是同时也失去了线性模型的可解释性。Feature importance可以直观地反映出特征的重要性,看出哪些特征对最终的模型影响较大。但是无法判断特征与最终预测结果的关系是如何的。Lundberg和Lee的论文提出了SHAP值这一广泛适用的方法用来解释各种模型(分类以及回归),如boosting和神经网络模型。
2020-10-16 18:29:00 4187 5
原创 pd.get_dummies与OneHotEncoder区别
同样是对分类变量编码pd.get_dummies一次只能对一列编码处理OneHotEncoder可fit_transform一次性处理
2020-10-14 11:42:49 1093 3
原创 决策树与集成学习练习
感谢菜菜~~集成学习(ensemble learning)是时下非常流行的机器学习算法,它本身不是一个单独的机器学习算法,而是通 过在数据上构建多个模型,集成所有模型的建模结果。基本上所有的机器学习领域都可以看到集成学习的身影,在 现实中集成学习也有相当大的作用,它可以用来做市场营销模拟的建模,统计客户来源,保留和流失,也可用来预 测疾病的风险和病患者的易感性。在现在的各种算法竞赛中,随机森林,梯度提升树(GBDT),Xgboost等集成 算法的身影也随处可见,可见其效果之好,应用之广。多个模型集成成为
2020-10-12 14:53:35 270
原创 mysql练手
sql 练手#1. 标准化处理:先把min,max查出来作为一列,再套一层查询计算SELECT b.*, (b.01_score - b.01_min)/(b.01_max - b.01_min) as 01_scaleFROM ( SELECT a.*, ( SELECT max( 01_score ) FROM score_hb ) AS 01_max, ( SELECT min( 01_score ) FROM score_hb ) AS 01_min
2020-09-30 11:41:48 124 1
原创 今日练手
练手:1.固定取df中每天每个时段的数据:import pandas as pdfrom datetime import timedf=pd.DataFrame({'x':np.random.randn(30)},index=pd.date_range('2020-09-01 13:00:50',freq='1h',periods=30))df[(time(13,0,0,0)<df.index.time )& (time(15,0,0,0)>df.index.time )]
2020-09-28 14:26:20 65
原创 分层抽样
分层抽样import pandas as pd import numpy as npdf=pd.DataFrame(np.random.randn(20).reshape(10,2))df['2'] = [5,5,5,5,5,2,2,2,3,3]typicalNDict={ 5:3, 2:2, 3:1 } #函数定义 def typicalsamling(group,typicalNDict): name=group
2020-09-27 12:03:11 526
原创 python读取非标准化文件
读取非标准化文件介绍方法一:pd.read_csvimport pandas as pddf = pd.read_csv(r'C:\Users\lee\Desktop\s.dat',encoding='utf-8',sep=' ')方法二:with opent = []with open(r'C:\Users\lee\Desktop\s.dat') as f: for i in f.readlines(): print(i) t.append(i.rs
2020-09-03 18:02:58 390
原创 xlearn安装中的问题解决
xlearn-0.4.4已经可以在windows上使用了。首先,确保安装好CMake,官网选择.msi的文件下载安装。C++我没有理会。pip install xlearn 显示成功import xlearn 报错:Cannot find xlearn Library in the candidate path绝望的时刻来了:百度了很多帖子都没法解决。git也下载不了一键执行的.bat文件。【解决办法】:鬼使神差看到xlearn官网https://xlearn-doc.readthedocs.i
2020-08-13 14:23:13 1814 5
原创 keras对服装图像进行分类
信心很重要,加油!!目标:训练了一个神经网络模型来对运动鞋和衬衫等衣物的图像进行分类。import tensorflow as tffrom tensorflow import kerasimport matplotlib.pyplot as plt1.导入Fashion MNIST数据集(train_images, train_labels), (test_images, test_labels) = keras.datasets.fashion_mnist.load_data()clas
2020-08-04 18:31:37 449
原创 创建虚拟环境-安装keras踩过的坑
凡是信心很重要,首先,这事很简单,不要畏难,一步一步操作就OK~~1.创建新环境conda create --tf2.0 python=3.72.激活环境conda activate tf2.03.安装tensorflowpip install --upgrade pippip install tensorflow坑来了:巴拉巴拉冲突,要测试新的解析器,请使用–use-feature=2020-resolver标志。解决:pip install tensorflow --use-feat
2020-08-04 10:23:01 2788
原创 按一定条件筛选df1,返回结果中df1的索引取df2的数据
每日一题:df1,df2已知,按一定条件筛选df1,返回结果中df1的索引取df2的数据?df1 = pd.DataFrame(np.random.random(50).reshape(25,2))df2 = pd.DataFrame(np.random.randint(100,size=50).reshape(25,2))解决:df2.loc[df1[df1[0]>0].index] 即可知识点:**1.random.randint(low,high,size)生成整数,至少要2个
2020-07-31 16:35:49 1003
原创 toad建立评分卡
尝试用toad建评分卡import pandas as pdimport numpy as npimport toadfrom toad.plot import bin_plotfrom toad.plot import badrate_plotfrom sklearn.model_selection import train_test_splitfrom sklearn.linear_model import LogisticRegressionfrom toad.metrics impo
2020-07-21 17:52:01 2567 6
原创 照片换底色~~勉强能看
照片就不放了,直接动手,看看怎么换照片底色吧。但是不得不说,PS玩得好替换效果肯定比这好。参考博文:https://mp.weixin.qq.com/s/Cgg8PlIzx-ZXU_sEeGVKsw第一步 装包避坑:直接装cv2会报错,所以promt里装了另外一个包,pip install opencv-python。这个包已经包含了cv2。import cv2import numpy as np第二步 读取展示图片避坑:imshow和waitKey命令要一起运行,否则无法显示图片。另外w
2020-07-13 18:12:41 327
原创 基于密度聚类的探索
基于密度聚类的探索~~~~from sklearn.cluster import DBSCANfrom sklearn import preprocessingimport pandas as pdimport numpy as npfrom sklearn.manifold import MDSimport matplotlib.pyplot as pltfrom collections import Counterdf = pd.read_excel('D:/Acompany/Abus
2020-06-10 18:14:53 237
原创 pyod 模型组合实例
pyod —— 模型组合实例代码参考地址:https://github.com/yzhao062/pyod/blob/master/examples/comb_example.py离群值检测由于其不受监督的性质而经常遭受模型不稳定性的困扰。因此,建议例如通过求平均来组合各种检测器输出以提高其鲁棒性。此演示中显示了四种分数组合机制:1.平均值:所有检测器的平均分数。2.最大化:所有探测器的最高分。3.平均值的最大值(AOM):将基本检测器划分为子组,并为每个子组获取最大分数。最终分数是所有子组分数
2020-06-08 15:24:44 624
原创 等高线画法
等高线画法,x,y分别为横纵坐标轴,一般会线性的使用x,y=np.meshgrid()将坐标轴切分到最细单位,本例未使用该函数,即隐形切分(x,y)至最细网格,可以想象成纳米那么细致的网格吧。x取值范围在[1,2],y取值范围在[3,4]。(1,3)对应z=1映射到red(2,3)对应z=2映射到blue(1,4)对应z=2映射到blue(2,4)对应z=3映射到lightgreenimport numpy as npimport matplotlib.pyplot as pltf
2020-06-05 16:07:20 1719
原创 各种算法的回归效果
目前看来knn与gbrt效果挺好花絮:python各种知识点1.自定义函数,结尾请用return返回结果方便调用2.np.arange:产生等差数列3.f - string:Python 字符串的格式化,从 %格式到 format再到 f-string,格式化的方式是越来越直观,同时 f-string 的效率似乎也比前两个高。参考文档 :https://www.cnblogs.com/traditional/p/9445930.html#回归import numpy as npimport
2020-06-05 15:46:31 421
原创 DBSCAN与KMeans对比
DBSCAN也是基于密度的聚类算法超参数:EPS领域半径Mmpts 核心点领域内点个数的阈值核心概念:核心点:一个对象在其半径内含有>Mmpts数目的点,则该点为核心点边界点:一个对象在其半径内含有<Mmpts数目的点,但改对象落在核心点的领域内,则该点为边界点噪音点:既不是核心点,也不是边界点的点。import numpy as npimport matplotlib.pyplot as pltfrom sklearn import datasets.
2020-05-26 18:22:11 3761
原创 关联规则分析
#关联规则from apyori import aprioristore_data = pd.read_csv(r'D:/Download/apriori算法示例及数据/apriori算法示例及数据/store_data.csv', header=None).fillna('')store_data.head()#读取csv文件,将每一行按逗号分割存成一个List,然后整体存储成List,类似这种形式List[[],[],[]]# records = []# with open(r'D:/D
2020-05-26 15:43:40 827
原创 networkx网络关系图
import networkx as nximport matplotlib.pyplot as pltfrom networkx.algorithms.community import k_clique_communitiesG = nx.read_gml(‘D:\Download\dolphins\dolphins.gml’)klist = list(k_clique_communities(G,5))#plottingpos = nx.spring_layout(G)plt.clf()
2020-05-19 17:01:44 2215 2
原创 Wrapper递归特征消除 (Recursive Feature Elimination)
特征选择三法宝:过滤法(Filter)、包裹法(Wrapper)、嵌入法(Embedding)过滤法(Filter):按照发散性或者相关性对各个特征进行评分,设定阈值或者待选择阈值的个数,选择特征包裹法(Wrapper):根据目标函数,每次选择若干特征或者排除若干特征,直到选择出最佳的子集。嵌入法(Embedding):先使用某些机器学习的算法和模型进行训练,得到各个特征的权值系数,根据系数从大到小选择特征。类似于Filter方法,但是是通过训练来确定特征的优劣。递归消除特征法使用一个基模型.
2020-05-12 17:39:52 1474
原创 python-余弦相似度
余弦相似度相关系数import jiebaimport mathimport numpy as np#——————————————————————————创建样本与分词———————————————————————————————————————s1='本周末去钓鱼's1_cut=[i for i in jieba.cut(s1,cut_all=True)]s2='下周去花卉市场买花's2_cut=[i for i in jieba.cut(s2,cut_all=True)]wor
2020-05-11 16:08:09 1749
原创 mysql_8.0.20(zip版) 从安装到连接扫雷篇
一、如何卸载mysql服务(1)删除注册表的bla…bla在win10的控制面版-程序-卸载程序,找不到mysql,于是在从注册表入手:快捷键win+r输入regedit进入注册表,找到HKEY_LOCAL_MACHINE\SYSTEM\ControlSet001\Services\Eventlog\Application\MySQL文件夹删除删除HKEY_LOCAL_MACHINE\SY...
2020-04-29 15:08:51 1106
原创 sql-各时点上客户近两个月的交易次数
一、创建数据CREATE TABLE `sheet1` ( `data_date` DOUBLE , `class` DOUBLE , `name` VARCHAR (765)); INSERT INTO `sheet1` (`data_date`, `class`, `name`) VALUES('20200401','1','A');INSERT INTO `sheet1` (...
2020-04-27 15:57:44 1222
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人