python
Main_阿闪
没有伞的孩子必须努力奔跑!
展开
-
python 切片操作解读
一、python可切片对象的索引方式 包括:正索引和负索引两部分,如下图所示,以a=[0,1,2,3,4,5,6,7,8,9]为例:二、python切片一般操作一个完整的切片表达式包含两个":",用于分隔三个参数(start_index、end_index、step),当只有一个":"时,默认第三个参数step=1。切片操作基本表达式:object[start_inde...原创 2019-04-25 12:02:44 · 1204 阅读 · 0 评论 -
训练集、验证集、测试集、交验验证的理解
在人工智能机器学习中,很容易将“验证集”与“测试集”,“交叉验证”混淆。一、三者的区别训练集(train set) —— 用于模型拟合的数据样本。验证集(development set)—— 是模型训练过程中单独留出的样本集,它可以用于调整模型的超参数和用于对模型的能力进行初步评估。在神经网络中, 我们用验证数据集去寻找最优的网络深度(number of h...转载 2019-08-15 17:07:46 · 1943 阅读 · 0 评论 -
交叉验证(Cross Validation)
交叉验证是在机器学习建立模型和验证模型参数时常用的办法。交叉验证,顾名思义,就是重复的使用数据,把得到的样本数据进行切分,组合为不同的训练集和测试集,用训练集来训练模型,用测试集来评估模型预测的好坏。在此基础上可以得到多组不同的训练集和测试集,某次训练集中的某样本在下次可能成为测试集中的样本,即所谓“交叉”。 根据切分的方法不同,交叉验证分为下面三种: 第一种是简单交叉...原创 2019-08-15 16:49:36 · 505 阅读 · 0 评论 -
机器学习三要素:模型、策略和算法
机器学习在干嘛?就是利用已有数据,找到一些合适的数学模型去描述它,然后做一些预测分析,从而优化企业的流程或者提高决策效率。机器学习的核心是:模型、策略和算法机器学习的目的——模型(Model)模型就是用来描述客观世界的数学模型,模型是从数据里抽象出来的。在进行数据分析时,我们通常手上只有数据,然后看数据找规律,找到的规律就是模型。就跟我们小时候做猜数字游戏似的,1,4,16...()......原创 2019-08-15 12:28:26 · 2479 阅读 · 0 评论 -
python中list和array的区别
numpy.array可以专门表示二维或多维数据 b=np.array(a) >>barray=([[1,2,3], [4,5,6], [7,8,9]])总结两点不同的地方:1.元素类型list是python的...原创 2019-08-07 10:52:57 · 5673 阅读 · 1 评论 -
Python中的赋值、浅拷贝与深拷贝
首先需要了解下几个概念变量:是一个系统表的元素,拥有指向对象的连接空间 对象:被分配的一块内存,存储其所代表的值 引用:是自动形成的从变量到对象的指针 类型:属于对象,而非变量 不可变对象:一旦创建就不可修改的对象,包括字符串、元组、数值类型(该对象所指向的内存中的值不能被改变。当改变某个变量时候,由于其所指的值不能被改变,相当于把原来的值复制一份后再改变,这会开辟一个新的地址...原创 2019-08-08 17:14:28 · 272 阅读 · 0 评论 -
精确率、召回率、F1值、ROC、AUC各自的优缺点
性能度量:为了了解模型的泛化能力,需要一个指标来衡量,这就是它的意义。主要讨论与分类有关的一些指标:1.混淆矩阵:可以这么理解:s1,先看预测结果(P/N);s2,再根据实际表现对比预测结果,给出判断结果(T/F)。TP:预测为1,预测正确,即实际为1;FP:预测为1,预测错误,即实际为0;TN:预测为0,预测正确,即实际为0;FN:预测为0,预测...原创 2019-08-06 11:44:19 · 2513 阅读 · 0 评论 -
重建二叉树
题目描述输入某二叉树的前序遍历和中序遍历的结果,请重建出该二叉树。假设输入的前序遍历和中序遍历的结果中都不含重复的数字。例如输入前序遍历序列{1,2,4,7,3,5,6,8}和中序遍历序列{4,7,2,1,5,3,8,6},则重建二叉树并返回。以中序和前后序建成树的思想已经不用再阐述了,遍历树主要靠的是递归代码展示class TreeNode: def __init__(...转载 2019-07-18 12:35:31 · 163 阅读 · 0 评论 -
(ID3、C4.5、CART、随机森林、GBDT)
注:本篇文章也是多个博客的综合整理。1、决策树基本问题1.1定义我们应该设计什么的算法,使得计算机对贷款申请人员的申请信息自动进行分类,以决定能否贷款?一个女孩的母亲要给这个女孩介绍男朋友,于是有了下面的对话:女儿:多大年纪了?母亲:26。女儿:长的帅不帅?母亲:挺帅的。女儿:收入高不?母亲:不算很高,中等情况。女儿:是公务员不?母亲:是,在税务局上...转载 2019-07-15 16:10:52 · 396 阅读 · 0 评论 -
梯度下降法及实现
梯度下降的场景假设 梯度 梯度下降算法的数学解释 梯度下降算法的实例 梯度下降算法的实现 Further reading本文将从一个下山的场景开始,先提出梯度下降算法的基本思想,进而从数学上解释梯度下降算法的原理,最后实现一个简单的梯度下降算法的实例!梯度下降的场景假设梯度下降法的基本思想可以类比为一个下山的过程。假设这样一个场景:一个人被困在山上,需要从山上下来(i....转载 2019-07-08 15:51:55 · 186 阅读 · 0 评论 -
Random_Logistic_regression中get_support()方法
使用随机逻辑回归模型进行特征筛选,使用get_support方法获取结果时出现以下错误:IndexError: boolean index did not match indexed array along dimension 0; dimension is 9 but corresponding boolean dimension is 8解决办法:get_support(indic...原创 2019-06-23 21:09:26 · 4817 阅读 · 11 评论 -
range()、np.arange()总结
range()和xrange()函数在 python 2.x 版本中,同时存在range() 和xrange() 函数,其中,range() 返回值是一个列表,xrange() 返回值是一个迭代器; 在 python 3.x 版本中,取消了xrange() 的定义,仅保留了range() 函数,且range() 函数的返回值也改为迭代器; xrange和range的语法格式相同; 语法:...原创 2019-06-17 15:51:12 · 2117 阅读 · 0 评论 -
《Python数据分析与挖掘实战》案例--财政收入影响因素分析及预测模型
Python3中运行出现错误,故修改其中一小部分代码使其正常运行:1、错误:KeyError:range(1994,2014)、原代码: f = GM11(data[i][range(1994, 2014)].as_matrix())[0]修改后:f = GM11(data[i][0:-2].as_matrix())[0]修改理由:(1)切片不能用自定义索引,索引可以用自定义索引(...原创 2019-06-15 17:50:08 · 4354 阅读 · 2 评论 -
pandas 写数据到mysql,pymysql.err.InternalError: (1366, "Incorrect string value: .' for column at row **
panda写数据到mysql,出现以下错误:pymysql.err.InternalError: (1366, "Incorrect string value: '\\xE6\\x8B\\xBF\\xE5\\xB7\\xA5...' for column `test`.`cleaned_gzdata`.`fullURL` at row 7765")解决方法:engine = crea...原创 2019-06-13 19:27:49 · 2382 阅读 · 0 评论 -
关于Pycharm安装扩展包的方法
1.pip install ....一般的pycharm都自带有pip,如果没有,就去下一个pip的安装包,将安装包解压在Python的根目录,搭建好Python的环境,然后用Python来安装pip,基本上就可以在pycharm的Terminal界面或者命令提示界面直接安装想要的扩展包了可以用pip install来安装,用pip list查看已安装的包用pip uninsta...转载 2019-05-29 17:21:41 · 1323 阅读 · 0 评论 -
ARIMA模型
1.模型介绍ARIMA,差分自回归滑动平均模型,又称求自回归滑动平均模型,是时间序列预测分析方法之一。ARIMA(p,d,q)中,AR是“自回归”,p为自回归项数;MA是“滑动平均”,q为滑动平均项数;d是使之成为平稳序列所做的差分次数(阶数)。2.ARIMA模型运用流程以《应用系统负载分析与磁盘容量预测》为案例:- (平稳性检验)根据时间序列的散点图、自相关系数和偏自相关系数...原创 2019-06-12 17:25:14 · 17192 阅读 · 0 评论 -
np.random.seed() 理解
在使用numpy时,难免会用到随机数生成器。numpy.random.seed(),随机数种子,每次可以生成相同的随机数。两个问题:1.利用随机数种子,每次生成的随机数相同,如何理解?2.随机数种子的参数怎么选择?经常看到np.random.seed(Argument),这个参数不一样,有的是0,有的是1,当然还有其他数,那么如何选择参数呢?以np.random.randn()函数...原创 2019-08-13 11:16:19 · 1357 阅读 · 0 评论