自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(39)
  • 资源 (5)
  • 收藏
  • 关注

原创 数据预处理方式合集

所以就没有用填充策略。这里我说的异常数据一般是指每个特征中的离群数据,因为我的任务是建立一个通用的,泛化能力较强的模型,所以这里对每个特征的离群数据进行删除操作,避免后续模型为了拟合离群点,导致过拟合的现象。特诊信息量是描述的某一特征的数据是否有足够的信息熵去辅助建模,如果一个特诊的信息熵很低,那说明该特诊基本上不存在什么波动,蕴含的信息量极少(当然可能要做完归一化后观测起来会比较明显),那该特诊就可以直接删除。单值特征是指某一列只有一个值,不存在变化的情况,这种特征是没有任何意义的,需要直接删除。

2023-09-20 11:44:58 544 3

原创 LightGBM调参与模型权重可视化

【代码】LightGBM调参与模型权重可视化。

2023-09-15 09:19:17 454

原创 多种机器学习模型对比可视化

【代码】多中机器学习模型对比可视化。

2023-09-14 14:45:26 451

原创 python实现Flask GET Demo

get方法可以不需要任何前端代码,直接运行以上Python代码,控制端会有以下输出。为我们的URL,因为我们做了/data的路由,所以在浏览器地址栏输入。

2023-09-13 16:03:17 452

原创 python实现Flask POST Demo

两个文件在同目录下,运行py文件即可。

2023-09-13 15:46:13 302

原创 定位DataFrame中存在空值的行/列

当DataFrame数据表单中存在空值时,会报关于'NaN'相关的错,虽然可以通过。但如果需要查看确实行/列具体情况,此时我们需要定位到具体位置,并作相应的处理。删除有空值的列(行axis=0)any(axis=0)定位到列,

2023-09-13 10:45:42 432

原创 模型解释方法

【代码】模型解释方法。

2023-09-13 10:33:48 66

原创 多个二分类模型效果混淆矩阵展示

【代码】多个二分类模型效果混淆矩阵展示。

2023-09-05 17:06:52 129

原创 shell 启动python并实现监控

【代码】shell 启动python并实现监控。

2023-09-05 16:44:48 130

原创 InvalidIndexError: Reindexing only valid with uniquely valued Index objects 处理

InvalidIndexError: Reindexing only valid with uniquely valued Index objects 处理

2023-06-28 09:42:43 2846 1

原创 Python利用PCA对图片进行降维处理

续上一篇文章,需要将一张400*400的图像转为400*10像素的图片,如果用Opencv中的resize也可以做到,只是最终形成的图片形式是未知的,仅作个人实验笔记记录。# -*- coding: utf-8 -*-"""Created on Sat Oct 24 00:49:04 2020@author: YQLiang"""from sklearn.decomposition import PCAimport cv2 as cvimport numpy as npdef s

2020-10-24 01:45:03 7361 3

原创 Python中图像像素矩阵缩放OpenCV中.resize()

前言在图像处理中有的图片较大,像素点很多,导致图像的像素矩阵维度过高,以至于计算机处理的速度较慢。此时需要对图像的像素点进行策略性的减少,但是不能丢失图像的特征:这里提供两个方法,1、是将图像的通过特定的卷积核将图像进行降维,例如将1000*1000的图片降维为200*200的图片。 2、通过OpenCV中resize()函数对图片进行’缩放‘,该方法可以通过参数调制实现不同的缩放功能,本文针对这种方法进行图像像素矩阵的缩放。...

2020-10-23 14:10:30 4010 1

原创 解决DeprecationWarning: threshold_ attribute is deprecated in 0.20 and will be removed in 0.22.

在程序中的输出往往会有一些警告和提示,但是期待输出整洁简单,直接忽略这些警告。解决类似的XXXWarning,在不影响整体的代码结构与功能的情况下通过import warningswarnings.filterwarnings("ignore")来过滤掉相关的警告提示。除非在Console需要输出整洁,否则不建议采用此方法,因为警告和提示会告知程序某些地方版本需要更新或者某些地方需要完善。...

2020-10-09 16:00:39 6185

原创 PyQt5-Python中Button与TextEdit制作简单的计算器(Anaconda)

Python界面化编程可以通过PyQt5实现,PyQt5功能是对UI的排版,后台功能函数通过Python实现。PyQt5可以直接在官网下载,安装即可。我是用的是Anaconda,集成了Python与PyQt5,不需要再安装PyQt5。在D:\Anaconda\Library\bin中找到designer.exe,打开进入一下UI排版界面。启动以后的对话框里“新建窗体”选择Main Window,然后直接创建,然后就直接形成了一个画布。在左侧的widget box里面的input.

2020-09-27 16:58:10 1264

原创 Neo4J 初次启动与密码

初次安装成功Neo4J在安装的文件中会有一个bin文件夹,powershell进入bin文件夹执行neo4j sonsole会有以下结果:D:\neo4j\bin>neo4j console2020-09-04 00:57:31.092+0000 INFO Starting...2020-09-04 00:57:33.899+0000 INFO ======== Neo4j 4.1.1 ========2020-09-04 00:57:35.689+0000 INFO Perfo...

2020-09-04 09:12:40 7037 2

原创 pandas.drop()使用

import pandas as pdimport numpy as np #新建一个矩阵数据 df = pd.DataFrame(np.arange(20).reshape(4,5),columns=['A','B','C','D','E'])import pandas as pdimport numpy as np#新建一个矩阵数据df = pd.DataFrame(np.arange(20).reshape(4,5),columns=['A','B','C','D','

2020-08-27 10:08:01 1427

转载 train_test_split 函数 

在机器学习中,我们通常将原始数据按照比例分割为“测试集”和“训练集”,从 sklearn.model_selection 中调用train_test_split 函数简单用法如下:X_train,X_test, y_train, y_test =sklearn.model_selection.train_test_split(train_data,train_target,test_size=0.4, random_state=0,stratify=y_train)# train_data:所要划.

2020-08-27 09:17:56 13250

原创 Pyecharts数据可视化时importError:cannot import ‘Pie‘ pyecharts

直接pip安装pyechartspip install pyecharts显示版本为1.8.1pycurl 7.43.0.2pyecharts 1.8.1pyflakes 2.1.1Pygments 2.3.1当调用模块时很多人使用的语句是from pyechart...

2020-08-25 16:57:30 9628 1

原创 一个类似于程序员在离开爱意绵绵的重庆

这篇博文是在重庆北站的SBUSKS里面写的,下午四点半的火车,但是我真的是被晚点搞得心里有阴影了,鉴于此我一点多就来到北广场候车。所以现在无论是坐火车还是AIR如果在时间允许的情况下走得很早,一来是绝对的不会晚点,二来是可以思考一些人生或者技术上的事情,毕竟我觉得我现在的技术和人生都出现了很大的问题(现在能意识到,我希望不会太晚)。 于是我想了一想,还是挺愿意写一些有时...

2020-04-29 10:16:19 444

原创 python ssh连接mysql数据库

很久很久没写博客了,自从跳槽之后就特别忙,也就是那种真正的996工作,今天有个同事问我ssh连接到数据库要我帮忙,他说问了很多人都不会,然后确实我觉得可以分享一下,因为ssh连接数据库安全性能会更高。不多bb了,进入正题。首先通过ssh方式连接MySQL需要导入一个SSHTunnelForwarder的工具包,我是直接在Pycharm的Terminal执行pip install sshtunn...

2019-12-05 17:20:13 742

原创 机器人控制算法

机器人的算法大方向可以分为感知算法与控制算法,感知算法一般是环境感知、路径规划,而控制算法一般分为决策算法、运动控制算法。环境感知算法获取环境各种数据,通常指以机器人的视觉所见的图像识别等,当然还有定位机器人的方位——slam,对于不同的机器人而言所处的环境各有千秋。其实我们常见的扫地机器人就是一种定位机器人(slam算法控制的),扫地机器人的行为决策和控制算法都是极其简单的,当遇到阻挡物时调整运...

2019-09-11 17:34:59 14938 3

原创 支持向量机(SVM)

支持向量机支持向量机的最基本思想就是基于训练集在样本空间中找到一个超平面将不同类的样本划分开,这个超平面最优的情况是容忍性要好,具有客观的鲁棒性,对未见的事例的泛化能里较强。一个超平面可以用以下线性方程描述 为法向量,决定平面的方向,b为位移项与原点的距离...

2019-09-11 16:14:43 202

原创 贝叶斯分类器笔记

贝叶斯分类器的基本思维判别模型与生成模型机器学习的目的在于想得到一个模型,这种模型对数据的管理能力要比较强,那怎么才能学习得到这样的优秀的模型呢?判别模式是直接进行建模,数据直接学习决策函数 Y = f(X),或者由条件分布概率 P(Y|X)作为预测模型,例如线性回归、SVM、决策树等,这些模型都是预先定制了模型的格式,所需要做的事情就是通过优化的方法得到最优的参数就好了;生成模式并不会直...

2019-08-09 15:19:37 171

原创 Neo4j Server shutdown initiated by request最简暴的解决办法。

NEO4J启动报错,找了很多帖子,看了文档但是还是看不出123,后来仔细看报错原因,发现关键在于Caused by: org.neo4j.kernel.lifecycle.LifecycleException: Component 'org.neo4j.server.database.LifecycleManagingDatabase@40f1be1b' was successfully ...

2019-04-02 16:47:06 10907 13

原创 机器学习-聚类PPT

2019-03-14 10:05:32 1297

原创 边缘计算——简单易懂的PPT+文字介绍

边缘计算是续云计算、物联网、5G时代之后的有一个新生代宠儿。这里我分享一个彩蛋,昨天我一个同事理解边缘计算是一种识别算法,觉得通过识别图像数据中的实体的边缘轮廓,得出该实体所表现出来的动作,比如扒窃动作识别、打架行为识别等,其实不然。边缘计算非常简单的来说就是在数据采集端有一个“中央处理器”,将采集的数据进行一个有目的性的处理或者运算,或者在就近的几个数据采集端配备一个“中央处理器”采取就近计...

2019-03-12 09:50:44 31160 82

原创 产品售前解决方案结构

      产品方案注重体现产品的亮点与应用场景,让客户知道本产品的利用价值以及哪些应用场景能契合到客户的需求,其实客户很少关心底层实现方式或者实现原理或者产品整体架构。另一方面,客户会需要一些现代化的、有质感的冠名词,比如云计算、人工智能、大数据、数据挖掘代替以往的自动化、电子化、流程化、便捷等词汇,很好的抓住客户痛点并且把客户痛点与其所想要冠名词结合在一起能极大化吸引客户。       能...

2019-02-27 17:09:38 5354

原创 数据分析——最小二乘法建立线性回归方程(最简单的一元线性模型为例)

概述别看公式多,其实很简单最小二乘法其实又叫最小平方法,是一种数据拟合的优化技术。实质上是利用最小误差的平方寻求数据的最佳匹配函数,利用最小二乘法可以便捷的求得未知的数据,起到预测的作用,并且是的这些预测的数据与实际数据之间的误差平方和达到最小。一般应用在曲线拟合的目的上。原理本篇文章不考虑其他方面的应用,我们用最简单的实例说明最小二乘法的工作原理与其内在含义。当我们在研究两个...

2019-01-10 11:20:05 108328 17

原创 经典数据分析方法——移动平均法在时序数据分析中的应用分析

移动平均法移动平均法是指上是对变量值进行平均的方法而已,即对原时间序列数据进行修正,从而消除季节变动和个别不规则变动对整体数据的影响。根据时序数据的特性不同移动平均法可分为三类:简单移动平均直接上例子 移动项数k即为从第一项开始k每隔k项相加,然后相加所得的值除以k就得到了新的时间序列,22=5+7+10得到三项移动的平均值为7.33。有以上例子可以看出,简单的移动平均可以消除...

2019-01-09 14:22:48 15630

原创 数据分析——时间序列分析模型(AR,MA,ARMA,ARIMA)

1.概述时间序列是某个时间段或者某些时间点对应的不同数值的数值对,这些数值对只有两个具体数据:时间要素、数值要素。时间要素可以是某一个时间段或者某一个时刻。例如一个杂货铺一周(七天)的销售额为时间段的时间要素,而一天二十四小时每个整点所对应的气温为时间点的时间要素。这些时间序列都直接或者间接的反应者某种事物的发展变化趋势与状态,也就是时间序列变化的背后必然蕴藏着非直观的某种变换规律,通过对这些...

2019-01-08 17:39:21 29978 3

原创 神经网络——损失函数

开始之前我们先进入数字识别这样一个场景:以识别数字1为例,神经网络模型的输出结果越接近[0,1,0,0,0,0,0,0,0,0]越好。神经网络解决多分类的问题,最常见的方法是设置n个输出节点,其中n类别个数,那么上述数字判断就应该有n=10个输出。那么如何判断一个输出向量和期望向量的接近程度呢?交叉熵(Cross entropy)是常用的评判方法之一,其实交叉熵刻画了两个概率分布之间的距离,它是分...

2019-01-07 11:16:07 1012

原创 神经网络中的激活函数与偏置项(activation function & bias)

神经元结构的输出为所有输入的加权和,故导致了整个神经网络其实为一个线性模型。如下图所示:当前节点输出为,这即为线性模型当前神经元的输出结果。不同于以上情况,如果将每一个神经元(即为神经网络中的节点)的输出通过一个非线性函数,那么整个神经网络的模型也就不再是线性模型了,这个非线性函数就是所谓的激活函数(activation function)。则非线性模型当前神经元的输出为,其实对于线性模...

2019-01-02 17:01:38 5196 2

原创 TensorFlow计算模型——计算图介绍

TensorFlow 的名字中己经说明了它最重要的两个概念一一Tensor 和Flow 。Tensor 就是张量。如果说TensorFlow 的第一个词Tensor 表明了它的数据结构,那么Flow 则体现了它的计算模型。TensorFlow中的每一个计算都是计算图上的一个节点,而节点之间的边描述了计算之间的依赖关系。import tensorflow as tfg1 = tf.Grap...

2018-12-28 15:24:53 358

原创 Python结合正则式匹配与分句的方式提取文本中的金额

本博文将一个文本中的金额信息利用正则式和分句的方式提取出来。对于一个文本而言文本内容包含的信息多种多样,往往我们感兴趣的关键信息都只是简单的几个字符或者一个简单的句子,基于这样的应用场景对于一个上万字的文本而言怎样才能高效而且准确的获取文本的关键信息?本文以获取文本中金额为例讲些一下鄙人对文本结构化与关键信息提取的理解。首先假设我们拿到一个文本内容如下:content='''排10西沙湾...

2018-12-28 14:23:17 6290

原创 语言模型识别介绍

       语言模型是自然语言处理问题中一类最基本的问题,一门语言中所有可能的句子服从某一个概率分布, 每个句子出现的概率加起来为1 ,那么“语言模型”的任务就是预测每个句子在语言中出现的概率。对于语言中常见的句子, 一个好的语言模型应得出相对较高的概率:而对于不合语法的句子,计算出的概率则应接近于零。       把句子看成单词的序列, 语言模型可以表示为一个计算的模型。语言模型仅仅对句子...

2018-12-27 15:25:05 370

原创 TensorFlow 参数随记

Variabletf.Variable(initializer,name),参数initializer是初始化参数,name是可自定义的变量名称c = tf.Variable(2.0, dtype=tf.float32,name='c')2.0为将c赋值为2.0这个特定的数值,dtype为变量c的数据类型,name为当前变量的名称random_normaltf.random_...

2018-12-27 14:30:37 176

原创 TensorFlow完整神经网络样例程序

应用场景       假设需要判断某工厂生产的零件是否合格,用零件的长度和质量来大致描述一个零件,这样一个物理意义上的零件就可以被转化成长度和质量这两个数字。       特征向量是神经网络的输入,神经网络的主体结构显示在图3-2 的中间位置。目前主流的神经网络都是分层的结构,第一层是输入层,代表特征向量中每一个特征的取值。比如如果一个零件的长度是0.5 ,那么x1的值就是0.5 。同一...

2018-12-27 13:45:48 1538

原创 在TensorFlow中出现with tf.Session as sess: AttributeError: __enter__错误解决方法

其实该类问题对于新手(鄙人就是)而言很常见:AttributeError表示所调用对象属性错误,记住Python是面向对象语言,该错误就是Python异常类的错误。#创建一个会话运行TensorFlow程序with tf.Session as sess: init_op = tf.global_variables_initializer() #初始化变量 sess....

2018-12-27 10:56:30 5887 3

原创 神经网络处理分类问题的方法与步骤

@神经网络处理分类问题的方法与步骤第一步:获取神经网络的输入提取问题实体中的特征向量作为神经网络的输入。定义网络结构定义神经网络的结构,并定义如何从神经网络中的输入得到输出,这个过程就是神经网络向前传播算法。训练通过训练数据来填在神经网络中参数的取值,也就是训练神经网络的过程。当然在这个过程中往往会存在网路优化,而网络优化过程中最常用的就是反向传播算法预测做完以上几个步骤接下来就...

2018-12-26 17:12:21 2276

HR_comma_sep.csv

通过Kaggle的HR数据集分析身边的小伙伴们为什么要离职,并基于数据集中的特征制定一个评分卡模型来预测会不会离职。 数据集解释 总览:该HR数据集收集了15000份数据,其中3571人离职,离职率23.8%。 satisfaction_level :对公司的满意程度 last_evaluation :对公司的评价 number_project :做过项目的数量 average_montly_hours :每月工作时长 time_spend_company :每天在公司的时间 Work_accident :工作差错 promotion_last_5years :五年内有没有提升

2020-08-25

云计算架构技术与实践第2版-高清-内容可复制

云计算的核心可以用五大基本特征、三种服务模式以及四类部署模式来概括。五大基本特征是: 按需获得的自助服务,广泛的网络接入、资源池化、快捷的弹性伸缩以及可计量的服务。三种服务模 式为:云基础设施即服务(IaaS),云平台即服务(PaaS),以及云软件即服务(SaaS)。四类部署模式可以 划分为:专有云(私有云)、行业云、公有云,以及混合云。 从各类云服务的创建、部署以及消费角度来描述云计算的实质,意味着云计算天然要求支持面 向服务的能力。现代企业通常会将其IT基础设施、业务平台以及软件即服务的对外开放作为其整体端 到端企业信息架构SOA解决方案中的重要一环来执行。当然软件即服务(SaaS)作为一个流行多年的话 题,其最早出现是在云计算概念出现之前,其实已经不是什么新鲜概念了。

2018-12-29

Docker技术入门与实战高清PDF.pdf

本书从Docker基本原理开始,深入浅出地讲解Docker的构建与操作,内容系统全面,可帮助开发人员、运维人员快速部署Docker应用。本书分为四大部分:基础入门、实战案例、进阶技能、开源项目,第一部分(第1~8章)介绍Docker与虚拟化技术的基本概念,包括安装、镜像、容器、仓库、数据卷,端口映射等;第二部分(第9~16章)通过案例介绍Docker的应用方法,包括与各种操作系统平台、SSH服务的镜像、Web服务器与应用、数据库的应用、各类编程语言的接口、容器云等,还介绍了作者在容器实战中的思考与经验总结;第三部分(第17~21章)是一些进阶技能,如Docker核心技术实现原理、安全、高级网络配置、libernetwork插件化网络功能等;第四部分(第22~28章)介绍与容器开发相关的开源项目,包括Etcd、Docker Machine、Docker Compose、Docker Swarm、Mesos、Kubernetes等。

2018-12-26

TensorFlow实战Google深度学习框架(第二版).pdf

高清PDF,文字代码可选中复制。 本书为TensorFlow 入门参考书,旨在帮助读者以快速、有效的方式上手TensorFlow 和深度学习。书中省略了烦琐的数学模型推导,从实际应用问题出发,通过具体的TensorFlow 示例介绍如何使用深度学习解决实际问题。书中包含深度学习的入门知识和大量实践经验,是走进这个前沿、热门的人工智能领域的优选参考书。

2018-12-26

机器学习西瓜数据集4.0

30条西瓜数据集,机器学习样例数据。

2018-12-26

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除