自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

u013344884的博客

行走在数据科学的大道上

  • 博客(42)
  • 收藏
  • 关注

原创 经验萃取方法

【经验萃取】

2023-09-06 16:24:48 177

原创 RuntimeError: dictionary changed size during iteration 解决办法

在字典遍历过程中修改字典元素,报错 RuntimeError: dictionary changed size during iteration得知遍历时不能修改字典元素for k in func_dict.keys(): if func_dict[k] is np.nan: del func_dict[k] continue解决办法:将遍历条...

2018-08-20 10:39:36 65552 5

原创 pandas系列总结(2)--- pandas基础功能(初步了解数据及函数)

延续总结(1):pandas系列总结(1) --- pandas数据结构实际使用中,我常用的DataFrame数据类型,下面了解DataFrame基本功能,基本数据集import pandas as pdimport numpy as npindex = pd.Index(['love','alice','peter','mars','mechel'],name='name')da...

2018-08-17 11:10:49 714

原创 pandas系列总结(1) --- pandas数据结构

一、Series类型1.数据创建Series 是一个带有 名称 、索引的一维数组,在 Series 中包含的数据类型可以是整数、浮点、字符串、Python对象等Pandas 常用的数据结构有两种:Series 和 DataFrame。这些数据结构构建在 Numpy 数组之上,效率很高。age = pd.Series(data=[23,34,35,12,23]) #创建serie...

2018-08-16 16:12:44 358

转载 Windows下在Anaconda3中安装python版的XGBoost库

转自 :https://blog.csdn.net/zz860890410/article/details/78682041 xgboost是近年来很受追捧的机器学习算法,由华盛顿大学的陈天奇提出。最近在学习机器学习,所以需要安装这一利器。然而,在网上找了很多安装xgboost的教程,有些方法太复杂,要安装额外的几个软件,有些看着简单但是自己按步骤安装了一遍,进行测试的时候还是没有成功。...

2018-08-10 10:30:16 625

转载 math、numpy、pandas NaN 判断以及去除

  转自https://blog.csdn.net/lanchunhui/article/details/80399681>> np.nan == np.nanFalse>> np.nan is np.nanTrue>> math.nan is np.nanFalse>> np.isnan(math.nan)True...

2018-08-06 14:31:51 20812 4

原创 python机器学习---模型选择3【欠拟合(高偏差)、过拟合(高方差)以及相关模型改善方法和建议】

一、当模型预测未知数据效果误差巨大时,解决方法?当我们用已经训练好的模型来预测未知数据发现巨大误差时,下一步要做的改进模型的方法通常有六种:1.获得更多的训练样本----解决高方差2.尝试减少特征的数量----解决高方差3.尝试获得更多的特征----解决高偏差4.尝试增加多项式特征----解决高偏差5.尝试减少归一化程度λ----解决高偏差6.尝试增加归一化程度λ---...

2018-08-05 18:26:09 2541

原创 python机器学习------决策树

一:理论部分二、应用(sklearn)调用sklearn中tree包进行模型训练,与其他方法类似,比较简单不赘述,之后补充决策树相关源码解析和调参应用

2018-08-05 14:48:44 199

原创 python机器学习----模型选择2(绘制分类边界、验证曲线、学习曲线)

一、绘制分类边界 绘制模型结果分类边界,能够从可视化的角度,查看当前的特征分类效果如何import numpy as npimport pandas as pdfrom sklearn.datasets import load_irisimport matplotlib.pyplot as pltfrom sklearn.linear_model import LogisticR...

2018-08-05 14:16:29 5062 3

原创 python机器学习----模型选择1(方法、指标)

一、模型选择的方法及相关指标1、损失函数通常有0-1损失,平方损失,绝对值损失和对数损失2、通常用测试集对模型评估,评估的方法有留出法,交叉验证法,留一法,自助法#留出法:直接将数据分为对立的三部分(也可以是两部分,此时训练集也是验证集),在训练集上训练模型,在验证集上选择模型,最后用测试集上的误差作为泛化误差的估计,数据集划分尽量保持数据分布一致,可以用分层采样来保持比例,通常采用多...

2018-08-05 11:52:13 3725

转载 在sklearn.model_selection.GridSearchCV中使用自定义验证集进行模型调参

转自:http://blog.csdn.net/ismarvellous/article/details/78195010模型调参是一门玄学。为了获得模型最优参数,我们需要不断地尝试不同的参数,这一过程相当繁琐。好在python的sklearn包中为我们提供了GridSearchCV,大大方便了调参过程。本文使用实际例程简单介绍一GridSearchCV的使用,并展示如何使用自定义验证集进行模...

2018-08-03 19:36:45 2459 1

转载 gridsearchcv(网格搜索)&kfold validation(k折验证) in ML

转自:https://blog.csdn.net/qq_30490125/article/details/80387414网格搜索算法是一种通过遍历给定的参数组合来优化给定模型性能的方法。以决策树为例,当我们确定了要使用决策树算法的时候,为了能够更好地拟合和预测,我们需要调整它的参数。在决策树算法中,我们通常选择的参数是决策树的最大深度。于是我们会给出一系列的最大深度的值,比如 {‘m...

2018-08-03 19:11:34 592

转载 sql语句去重

有重复数据主要有一下几种情况:1.存在两条完全相同的纪录这是最简单的一种情况,用关键字distinct就可以去掉example: select distinct * from table(表名) where (条件) CREATE TABLE 临时表 AS (select distinct * from 表名);     drop table 正式表;     insert...

2018-07-27 16:03:41 33504 2

转载 Python Numpy中reshape函数参数-1的含义

新数组的shape属性应该要与原来数组的一致,即新数组元素数量与原数组元素数量要相等。一个参数为-1时,那么reshape函数会根据另一个参数的维度计算出数组的另外一个shape属性值。下面来举几个例子来理解一下:>>> z = np.array([[1, 2, 3, 4],[5, 6, 7, 8],[9, 10, 11, 12],[13, 14, 15, 16]])...

2018-07-27 15:58:37 3003

转载 dataframe行、列条件运算

1 2 3 4 5 6 7 8 9 10 11 >>> import pandas as pd >>> import numpy as np >>> from pandas import Series, DataFram...

2018-07-27 15:53:54 15640

原创 python 逆转句子

1.将一个句子逆转将一句话的单词进行倒置,标点不倒置。比如 I like beijing. 经过函数后变为:beijing. like I#-*- coding:utf8 -*-string = raw_input('string:') #输入句子list1 = string.split() #以空格分裂list1 = reversed(list1) #逆转lista = ' '...

2018-07-27 15:46:36 2067

原创 mac anaconda python连接数据库

首次尝试anaconda python连接数据库,记录一下1.  到相应python 版本环境下,下载相应数据库包,以下为命令行source activate python3.5env #进入Python3.5环境下conda install pymysql #下载mysql数据库交互包2.import pymysql不报错[anaconda 中 conda命令找不到mysq...

2018-07-26 19:18:39 1194

原创 Python 操作配置文件

代码开发都在测试环境中,投入生产环境时运维人员不会去修改你的代码(如修改数据库连接相关信息),此时就需要提供一个相应的配置文件,供给运维人员修改。此处记录一下python操作配置文件的方法。参考:https://www.jianshu.com/p/5f1e1bc3fbe2介绍:文件格式配置文件中包含一个或多个 section,每个 section 都有自己的 option; se...

2018-07-26 19:18:13 1322

原创 查看、修改mysql数据库及表编码格式

mac中在新建数据时发现不能输入中文数据,mysql默认编码格式不支持中文,编码格式应该有问题,记录一下:首先需要定位问题---看整个数据库中哪里的编码有问题,由大到小1.查看mysql各个编码格式问题,看到数据库以及服务的编码格式是不支持中文的show variables like 'character%';/*mysql中各个方面字符集编码格式*/2.修改数据库的编码格式...

2018-07-23 17:52:42 637

原创 python--numpy&pandas 函数

相关函数http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.html#pandas.DataFrame二、常用库1.NumPy  NumPy是高性能科学计算和数据分析的基础包。部分功能如下:ndarray, 具有矢量算术运算和复杂广播能力的快速且节省空间的多维数组。用于对整组数据进行快速运算的标准数学函数(无...

2018-05-04 10:34:27 220

原创 Python评分卡建模记录----使用到的各种函数(2)

(七) python的DataFrame排序问题1.按照一列排序frame.sort_index(axis = 0,ascending = True,by = 'a')  #升序   frame.sort_index(axis = 0,ascending = False,by = 'a') #降序2.  按多列排序frame.sort_index(axis = 0,ascending = True...

2018-05-03 13:36:16 306

原创 python 评分卡建模记录---使用到的各种函数(1)

用python评分卡建模过程中使用到的numpy 和pandas中的方法(一)python选取特定列——pandas的iloc和loc以及icol使用(列切片及行切片)df是一个dataframe,列名为A B C D具体值如下:A    B    C     D0    ss   小红  81    aa   小明  d4    f          f6    ak   小...

2018-05-03 13:35:23 2321 1

原创 python数据分析建模每日一题(5月3日)——快速排序、冒泡排序、插入排序、希尔排序

1、快速排序list1 = [1,4,2,3,10,8,7,5,4,2,11,23,15]def quick_sort(L):    if len(L) <= 1: return L    else:        return quick_sort([i for i in L[1:] if i < L[0]]) + L[0:1] + quick_sort([j for j i...

2018-05-03 13:32:20 172

原创 python数据分析建模每日一题(5月2日)——顺时针逆时针打印矩阵

#顺时针打印list1 = [[2,3,4,5],[5,6,7,8],[3,4,5,9],[10,11,23,45],[1,4,7,2]]left = 0 #列起始top = 0 #行起始right = len(list1[0]) #-1为列结束bottom  = len(list1) #-1为行结束print ('first')result = []while(left <...

2018-05-02 17:29:22 302

转载 mysql定时任务的实现

mysql定时任务的实现https://blog.csdn.net/erdongritian/article/details/531586171,需求:每天晚上10点到早上5点,每10分钟定时执行存储过程。2,实现方式:实现方式有两种:       一种是比较常规的,用mysql的event定时任务,先介绍一下mysql中event定时任务的相关命令,      查看event是否启用:[sql]...

2018-04-27 10:43:34 174

转载 【R语言】必学包之dplyr包

【R语言】必学包之dplyr包转自:https://blog.csdn.net/wltom1985/article/details/54973811R包dplyr可用于处理R内部或者外部的结构化数据,相较于plyr包,dplyr专注接受dataframe对象, 大幅提高了速度,并且提供了更稳健的数据库接口。同时,dplyr包可用于操作Spark的dataframe。本文只是基础的dplyr包学习笔...

2018-03-24 10:15:37 1474

原创 sql 同时(更新)update和(查询)select同一张表

当要使用本表的数据更新本表时,容易出错:如下:update b set aaa=select max(MAX_def_60M) as max from b[Err] 1064 - You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the r...

2018-03-15 18:17:22 25904

原创 Python编码系列问题-(一)

学习python至今,如果说有什么问题令我一直头痛不解,非编码问题莫属,遇到过许多编码问题,每一次都是不同的解决办法,尤其我经常读取的是中文文件,同样类型的编码报错,几乎都是在用不同的方式解决,总让我琢磨不透,此问题浪费了我python编程的一半以上时间,在此先挖一坑,日后不断填补,总结规律。通过搜索,找到一篇深入讲解编码问题的文章Python 编码为什么那么蛋疼?文章中刘志军回答如下:另一篇文章...

2018-03-15 10:19:07 132

转载 R—读取数据(导入csv,txt,excel文件)

R—读取数据(导入csv,txt,excel文件)转自:http://www.cnblogs.com/zhangduo/p/4440314.html导入CSV、TXT文件read.table函数:read.table函数以数据框的格式读入数据,所以适合读取混合模式的数据,但是要求每列的数据数据类型相同。read.table读取数据非常方便,通常只需要文件路径、URL或连接对象就可以了,也接受非常丰...

2018-03-13 09:55:50 2712

原创 R语言进行EDA ——ggplot 图形分面、直方图 和频率多边形

分面通常使用绘图方法+①facet_wrap(~varible)/facet_wrap(formula)  较适用于单个变量②facet_grid(vertical ~ horizion)/facet_grid(formula)  较适用于多个变量详细讲解可参考 http://www.cookbook-r.com/Graphs/Facets_(ggplot2)/其他图形调整1、转换数据### Tr...

2018-03-10 18:11:33 7144

转载 ggplot2学习笔记之标度scale

ggplot2学习笔记之标度scale转自:http://blog.csdn.net/songzhilian22/article/details/49006391标度(scale),是将数据空间(标度的定义域)映射到图形属性空间(标度的值域) 的一个函数。 每一种图形属性都有一个默认的标度,当我们每一次使用这个图形属性时都会自动 添加到图形中。图形属性离散型连续型颜色(colour)和填充色(fi...

2018-03-10 17:50:35 1384

原创 R语言基础——Markdown tutorial

效果展示r模块```{r}subset(mtcars, mpg >= 30 | hp < 60)```

2018-03-09 17:43:30 265

原创 R语言进行EDA——R语言基础

R语言基础初次编写R语言程序,根据退件使用指南网站https://www.statmethods.net/一、数据集子集化(数据集筛选)getwd() #获取当前working directorystatesInfo<-read.csv("stateData.csv") #读取CSV文件#数据子集化stateSubset <- subset(statesInfo,state...

2018-03-09 11:58:38 3376

原创 机器学习类别不平衡问题的解决方法——待完善

机器学习类别不平衡问题的解决方法本文有参考1.《机器学习》 周志华2. https://yq.aliyun.com/articles/2260163.http://blog.csdn.net/heyongluoyao8/article/details/49408131

2018-03-09 08:17:03 441

原创 监督学习1——房价预测(案例)--待补充

以下将使用带AdaBoost算法的决策树回归器(decision tree regressor)来预测房价。1.关于adaBoost简述(其他笔记中将详细讲述)决策树是一个树状模型,每个节点都做出一个决策,从而影响最终结果。叶子节点表示输出数值,分支表示根据输入特征做出的中间决策。 AdaBoost算法是指自适应增强(adaptive boosting)算法,利用其他系统增强模型准确性的技术。将不...

2018-03-09 06:16:17 704

原创 监督学习1——回归

监督学习:有标记非监督学习:无标记1.线性回归线性回归的目标是提取输入变量与输出变量的关联线性模型,这就要求实际输出与线性方程预测的输出的残差平方和(sum of squares of differences)最小化。这种方法被称为普通最小二乘法(Ordinary Least Squares, OLS)from sklearn.linear_model  import LinearRegressi...

2018-03-08 22:14:54 471

原创 常用数据预处理技术(python实现)

一、特征规范化方法1. 均值移除( Mean removal)把每个特征的平均值移除,以保证特征均值为0(即标准化处理)。这样做可以消除特征彼此间的偏差(bias),变为均值为0方差为1的数据集。(x-mean)/标准差#均值移除from sklearn import preprocessingdata_standardized = preprocessing.scale(data)print...

2018-03-08 21:23:37 2655

转载 最大似然估计和最小二乘估计的区别与联系

看似最小二乘估计与最大似然估计在推导得到的结果很相似,但是其前提条件必须引起大家的注意!!!对于最小二乘估计,最合理的参数估计量应该使得模型能最好地拟合样本数据,也就是估计值和观测值之差的平方和最小,其推导过程如下所示。其中Q表示误差,Yi表示估计值,Yi'表示观测值。对于最大似然法,最合理的参数估计量应该使得从模型中抽取该n组样本观测值的概率最大,也就是概率分布函数或者说是似然函数最大。显然,这...

2018-03-08 14:08:42 17901

原创 only integer scalar arrays can be converted to a scalar index

在使用StratifiedShuffleSplit进行交叉验证时,出现上述错误。具体问题发现与解决过程如下:from sklearn.model_selection import StratifiedShuffleSplitsss=StratifiedShuffleSplit(n_splits=10,test_size=0.3,train_size=0.7, random_state=42)f...

2018-03-08 13:59:38 16617 1

转载 Python中遇到"UnicodeDecodeError: ‘gbk’ codec can’t decode bytes in position 2-3: illegal multibyte sequ

Python中遇到"UnicodeDecodeError: ‘gbk’ codec can’t decode bytes in position 2-3: illegal multibyte sequence"之类的编码或解码的错误时如何处理【背景】问题参见:python2.7 urllib2 抓取新浪乱码中的:报错的异常是   UnicodeDecodeError: ‘gbk’ codec ca...

2018-03-08 11:44:22 3257

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除