机器学习
文章平均质量分 56
静听山水
Just do it
展开
-
算法与工程小课堂-3
原创 2022-05-28 00:09:05 · 106 阅读 · 1 评论 -
什么是 MLOps?
什么是 MLOps? - 知乎ML(机器学习)系统开发生命周期和 MLOps 需求的完整演练 ML 系统工程和运营及其利益相关者 直到最近,我们所有人都在学习软件开发生命周期 (SDLC) 以及它如何从需求获取→设计→开发→测试→部署→一直到维护。 …https://zhuanlan.zhihu.com/p/392216271...转载 2021-12-31 21:49:20 · 1154 阅读 · 0 评论 -
Python基于主成分分析的客户信贷评级
前言大样本的数据集固然提供了丰富的信息,但也在一定程度上增加了问题的复杂性。如果我们分别对每个指标进行分析,往往得到的结论是孤立的,并不能完全利用数据蕴含的信息。但是盲目的去减少我们分析的指标,又会损失很多有用的信息。所以我们需要找到一种合适的方法,一方面可以减少分析指标,另一方面尽量减少原指标信息的损失。变量压缩的方法非常多,但百法不离其中,其实最根本的都是**「主成分分析」(Primary Component Analysis,下简称PCA)。能够理解 PCA 的基本原理并将代码用于实际的业务案例是原创 2021-10-10 15:52:39 · 782 阅读 · 0 评论 -
【数据降维方法】使用Python实现因子分析
因子分析(factor analysis)是指研究从变量群中提取共性因子的统计技术。 因子分析是简化、分析高维数据的一种统计方法。因子分析又存在两个方向,一个是探索性因子分析(exploratory factor analysis)。另一个是验证性因子分析(confirmatory factor analysis)。探索性因子分析是先不假定一堆自变量背后到底有几个因子以及关系,而是我们通过这个方法去寻找因子及关系。验证性因子分析是假设一堆自变量背后有几个因子,试图验证这种假设是否正确。因子分析有两原创 2021-10-10 15:19:07 · 3319 阅读 · 0 评论 -
关联规则之置信度,支持度,提升度
【统计分析】关联规则之置信度,支持度,提升度_红芒果-CSDN博客_关联规则提升度一般使用三个指标来度量一个关联规则,根据这三个指标可以筛选出满足条件的关联规则。 这三个指标是:Support(支持度)、Confidence(置信度)、Lift(提升度)。 以A,B这个关联规则为例来说明:Support(支持度):表示A、B同时使用的人数占所有用户数(研究关联规则的“长表”中的所有有使用的产品的用户数)的比例。如果用P(A)表示使用A的用户比例,其他产品类推,那...https://blog.csdn.ne原创 2021-09-15 13:36:21 · 1295 阅读 · 0 评论 -
python 进行文本情感分析
wordcloud安装参考:下载安装wordcloudsnownlp安装参考:下载安装snownlpjieba安装参考:使用码云下载Github文件wordcloud强调python版本,snownlp和jieba不强调版本,我装的都是python3.6下的。数据:和鲸社区数据-京东2k条评论import pandas as pddata = pd.read_csv('C:/Users/admin/Desktop/新建文件夹/京东评论数据.csv')data.head(2)转载 2020-06-09 22:37:05 · 19436 阅读 · 12 评论 -
NLP
方便查找:词性标注的标签对应含义原创 2020-03-18 15:11:04 · 89 阅读 · 0 评论 -
NLP(一)
Natural Language Toolkit,自然语言处理工具包,在NLP领域中,最常使用的一个Python库。nltk库的安装和简单使用:(1)如果直接下载会很慢,之前有看到有个博主说自己用4个小时才下在下来,所以自己便去github对应的网站下载的:https://github.com/nltk/nltk_data(2)下载下来的大概638M,其中有用的是package...原创 2020-03-18 16:50:52 · 125 阅读 · 0 评论 -
MSE(均方误差)函数和RMSE函数
原创 2021-03-29 16:24:57 · 1243 阅读 · 0 评论 -
协同过滤算法
协同过滤算法:协同过滤推荐算法_哔哩哔哩转载 2020-09-25 18:17:41 · 139 阅读 · 0 评论 -
fbprophet安装
终于安装好了,怎么说呢,过程其实很简单,但是被python的版本折磨了。我用python3.6安装时,一切都准备好了,fbprophet导入也没问题。但是在建模时就会报错:AttributeError: 'Prophet' object has no attribute 'stan_backend',所以尝试了python3.5,当然3.5可能是个比较老的版本了,DEPRECATION: Python 3.5 reached the end of its life on September 13th,原创 2020-09-09 10:02:21 · 4333 阅读 · 2 评论 -
python进行简单方差分析
数据:V1 样品1 样品2 样品3 样品4 样品5 A1 51 45 56 48 48 A2 57 41 48 49 41 A3 64 72 65 57 54 代码:import pandas as pdimport numpy as n...原创 2019-11-18 17:48:06 · 1373 阅读 · 0 评论 -
python进行回归分析(2)
数据来源:选自课件i xi yi 1 5 4 2 5 6 3 10 8 4 20 13 5 30 16 6 40 17 7 50 19 8 60 25 9 65 25 10 90 29 11 120 46 ...原创 2019-11-18 16:54:45 · 657 阅读 · 0 评论 -
python进行回归分析(1)
数据来源:R软件自带的包alr4中的数据集library(alr4)data<-UN11write.table(data,"C:/Users/admin/Desktop/数据分析/a.csv",row.names=FALSE,col.names=TRUE,sep=",")接下来用python分析:np.array(x).reshape(-1,1):把array的行形式转为列...原创 2019-11-18 16:31:50 · 2205 阅读 · 0 评论 -
k-means用户划分
https://www.kaggle.com/kushal1996/customer-segmentation-k-means-analysis/notebook导入包import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns import plotly as pyimport plotly.graph_objs as gofrom sklearn.cluster i转载 2020-06-15 21:27:03 · 1361 阅读 · 0 评论 -
汽车保险客户分类问题
代码:https://www.kaggle.com/manibhask/cleaning-visualizing-and-modeling-cold-call-data数据:https://www.kaggle.com/kondla/carinsurance让我们查看数据集的特征并了解每个属性/特征的含义。下表显示了数据集的简要说明以及变量是连续的,分类的还是离散的。FeatureDescriptionExampleId唯一标识“1” … “5000”Age客户年龄转载 2020-06-12 12:00:29 · 2278 阅读 · 0 评论 -
Apriori分析BreadBasket
数据集下载:https://www.kaggle.com/sulmansarwar/transactions-from-a-bakery?select=BreadBasket_DMS.csvmatplotlib设置绘图风格:https://blog.csdn.net/weixin_42968458/article/details/82889736觉得比较好看的几款:fivethirtyeight,seaborn-colorblind,seaborn-paper这三款差不多;seaborn-white是原创 2020-06-10 22:51:18 · 840 阅读 · 1 评论 -
Apriori简单运用
https://www.cnblogs.com/molieren/articles/10679277.htmlhttps://www.cnblogs.com/bigmonkey/p/7405555.htmlhttps://www.cnblogs.com/bigmonkey/p/7449761.htmlfrom efficient_apriori import apriori# 设置数据集data = [('牛奶','面包','尿布'), ('可乐','面包', '尿布', '原创 2020-06-10 11:24:24 · 1798 阅读 · 0 评论 -
使用python进行LDA分析
主成分分析的目标是向量在低维空间中的投影能有很好地近似替代原始向量,但这种投影对分类不一定合适。由于PCA是无监督学习,没有利用样本标签信息,不同类型样本的特征向量在这个空间中的投影可能很接近。线性判别分析也是一种子空间投影技术,但是它的目的是用来分类,让投影后的向量对于分类任务有很好的区分度。sklearn进行PCA及LDA分析import matplotlib.pyplot as pltfrom sklearn import datasetsfrom sklearn.discriminant_原创 2020-06-09 12:36:59 · 4914 阅读 · 0 评论 -
python进行主成分分析
数据:序号 x1 x2 x3 x4 1 40 2 5 20 2 10 1.5 5 30 3 120 3 13 50 4 250 4.5 18 0 5 120 3.5 9 50 6 10 1.5 12 50...原创 2019-11-18 18:10:54 · 1706 阅读 · 1 评论 -
酒店预订分析
Hotel Booking Analysis目的:从我们拥有的数据集中创建有意义的估计量,并通过将它们与不同的ML模型和ROC曲线的准确性得分进行比较,来选择预测性能最好的模型。1- EDA2- Preprocessing3- Models and ROC Curve ComparisonLogistic RegressionGaussian Naive BayesSupport Vector ClassificationDecision Tree ModelRandom Forest原创 2020-05-29 11:41:51 · 2742 阅读 · 0 评论 -
python 进行各种回归
基本回归:线性、决策树、SVM、KNN集成方法:随机森林、Adaboost、GradientBoosting、Bagging、ExtraTrees##学会了数据分层抽样,以及各种回归的代码书写。可能还需要注意调参等。继续学习网址:使用sklearn做各种回归数据准备from matplotlib import pyplot as plt%matplotlib inlineplt.st...原创 2020-05-05 23:23:25 · 2885 阅读 · 0 评论 -
Xgboost安装
环境:Anconada + python3.6 + 64位参考这篇博客即可,xgboost库安装和实例_人工智能_金多的博客-CSDN博客安装过程如下:1.到网站https://www.lfd.uci.edu/~gohlke/pythonlibs/#xgboost下载whl文件;2.将其放到Anconada安装目录的Scripts文件夹下,我的电脑是E:\Anconda\progr...原创 2020-05-01 09:45:53 · 1966 阅读 · 0 评论 -
python包下载
https://www.lfd.uci.edu/~gohlke/pythonlibs/#xgboost原创 2020-05-01 09:21:35 · 207 阅读 · 0 评论 -
使用pandas计算环比、同比
https://blog.csdn.net/littleRpl/article/details/91490704同比 和 环比 都是为了显示数据的变化速度,但是基数不同,同比侧重长期数据趋势变化,环比侧重于短期内数据趋势变化同比是指在同一时期内的数据趋势变化,用于本期与同期的对比,例如本期2018-02月销售额与同期2017-02月销售额做对比。【(本期 - 同期)/ 同期】环比是指在短时间...原创 2020-04-28 15:10:16 · 3970 阅读 · 2 评论 -
使用python建立ARIMA模型
案例:2015/1/1至2015/2/6某餐厅销售数据进行建模参考链接:1.https://zhuanlan.zhihu.com/p/549856382.https://zhuanlan.zhihu.com/p/351283423.https://www.kaggle.com/pratyushakar/time-series-analysis-using-arima-sarima数据获取...原创 2020-04-28 09:08:06 · 51830 阅读 · 56 评论 -
tensorflow的安装
终于安装好了。来记录一下自己的安装过程,以后方便查阅!我的安装环境:windows + Anconda3。安装的是python3.5 + tensorflow 1.1.0--cpu参考博客:1.安装时主要结合这三篇:最重要的是先看自己创建的环境适合哪个版本的tensorflow,可以从下面这个网址查询得到,也为了后续更好地安装Keras。python与tensorflow的版本...原创 2020-04-25 22:38:00 · 224 阅读 · 0 评论 -
用Prophet在Python中进行时间序列预测
使用fbprophet分析世界疫情感染人数import pandas as pdfrom fbprophet import Prophetpred = pd.read_csv("../kaggle3/covid-19-all.csv")pred.head() Country/Region Province/State ...原创 2020-04-25 14:17:18 · 2447 阅读 · 0 评论 -
github下载失败、下载速度慢的解决方法——码云
解决GitHub下载速度太慢总导致失败的问题_gitHub下载速度慢_心雨先生-CSDN博客转载 2020-04-24 23:57:57 · 215 阅读 · 0 评论 -
分类,K折交叉验证,算法比较
import numpy as npimport pandas as pdfrom sklearn.model_selection import train_test_split,KFold,cross_val_scorefrom sklearn.linear_model import LogisticRegressionfrom sklearn.tree import DecisionT...转载 2020-04-24 10:59:15 · 808 阅读 · 0 评论 -
StandardScaler/MinMaxScaler/Normalizer之间的区别
StandardScaler/MinMaxScaler/Normalizer之间的区别_Python_u010471284的博客-CSDN博客转载 2020-04-24 10:55:21 · 836 阅读 · 0 评论 -
对kaggle:travel-insurance的分析
https://www.kaggle.com/mhdzahier/travel-insurance1.导入数据from matplotlib import pyplot as plt%matplotlib inlineplt.style.use('fivethirtyeight')import seaborn as snsimport pandas as pdsns.set()im...原创 2020-04-24 09:54:33 · 1381 阅读 · 0 评论 -
使用sklearn中的决策树处理分类问题
如何在数据分析中解决样本分布不均衡的问题 - 知乎数据挖掘经典实例——泰坦尼克号幸存者预测 - 知乎分类树预测经典实例——泰坦尼克号幸存者预测 - 知乎...转载 2020-04-22 14:26:46 · 833 阅读 · 0 评论 -
使用sklearn中的随机森林处理分类问题
import matplotlibimport numpy as npimport matplotlib.pyplot as pltfrom sklearn.ensemble import RandomForestClassifierfrom sklearn import datasets%matplotlib inline# 生成所有测试样本点def make_meshgrid(...原创 2020-04-22 13:14:54 · 1175 阅读 · 0 评论 -
使用sklearn中的神经网络模块MLPClassifier处理分类问题
MLPClassifier:参数详解--https://blog.csdn.net/weixin_38278334/article/details/83023958生成网格点坐标矩阵--https://blog.csdn.net/lllxxq141592654/article/details/81532855import numpy as npimport matplotlib.pyplo...原创 2020-04-21 22:52:07 · 5157 阅读 · 3 评论 -
time-series-analysis-and-forecasts-with-prophet
Time Series Analysis and Forecasting with ProphetGoal:Explore the data (ECDF, handle missing values etc).Analysis per store type and correlational analysis of stores activity.Perform extensive Ti...转载 2020-04-18 22:39:26 · 675 阅读 · 0 评论 -
indian-foreign-exchange-prediction-using-lstm
import numpy as np import pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsfrom sklearn.model_selection import train_test_splitfrom keras.models import Sequentialfrom keras.laye...转载 2020-04-18 22:23:11 · 386 阅读 · 0 评论 -
Arima-and-lstm-model-for-wiki-pages
This Notebook is to visualize the data and train an ARIMA model for each language category combined. The outputs from this model can be used as an input feature for an ensemble of models based on thei...转载 2020-04-18 21:36:44 · 523 阅读 · 0 评论 -
Decision_tree
案例:包含调参https://blog.csdn.net/fanzonghao/article/details/85246720import pandas as pdfrom sklearn import preprocessingdataset = pd.read_csv("C:/Users/admin/Desktop/123/三阶段/第一阶段-深度学习基础/代码与素材(1)/01DT...原创 2020-04-18 19:55:31 · 194 阅读 · 0 评论 -
正则化
正则化的理解_网络_不曾走远的博客-CSDN博客转载 2020-04-17 10:47:29 · 108 阅读 · 0 评论