Python
文章平均质量分 52
么心learning
nothing
展开
-
Python计算时间间隔
使用Python计算‘2020-05-25’格式的时间间隔(天数)import datetimedef cal_interval_days(row): d1 = row['发放日期'] d2 = row['签订日期'] d1 = datetime.datetime.strptime(d1, "%Y-%m-%d") # 第一个日期 d2 = datetime.datetime.strptime(d2, "%Y-%m-%d") # 第二个日期 interv原创 2020-05-25 10:29:06 · 1509 阅读 · 2 评论 -
特征工程:One-hot编码
建模时,常常会遇到有些特征变量代表的是类型或类型。比如城市(city),它的取值有San Francisco,New York和Seattle三种。代表三个城市。import pandas as pdfrom sklearn import linear_modeldf = pd.DataFrame({'City': ['SF', 'SF', 'SF', 'NYC', 'NYC', 'NY...原创 2019-05-23 15:48:31 · 1269 阅读 · 0 评论 -
Pandas高级:list转为dataframe
项目中处理好数据后,进行特征筛选,并将筛选好的特征按照IV值大小进行倒序排序。sorted排好序后,输出的list类型数据,需要将其转为pandas中的dataframe,方便后续存储。先按照特征的IV值排序:dic_sort = sorted(result_list.items(), key=lambda item: item[1], reverse=True)sorted后的数据...原创 2019-02-15 13:14:39 · 12473 阅读 · 1 评论 -
Pandas高级:合并数据集concat
本文主要介绍pandas中常用的数据合并的方法concat。先定义一个生产数据的函数:"""一个简单的DataFrame"""def make_df(cols, ind): data = {c: [str(c) + str(i) for i in ind] for c in cols} return pd.DataFrame(data, ind...原创 2019-01-22 10:49:40 · 408 阅读 · 0 评论 -
数据分析:异常值检测--箱型图
在做数据分析时,我们免不了要检查数据中的异常值,但是什么样的数据算作异常呢。有人说很大或者很小的值,那到底多大多小的值算异常。箱型图就可以很好的解决这个问题。我们都知道折线图、柱状图等,但很少使用过箱型图。关于箱型图,百度百科的解释为:箱形图(Box-plot)又称为盒须图、盒式图或箱线图,是一种用作显示一组数据分散情况资料的统计图。因形状如箱子而得名。在各种领域也经常被使用,常见于品质管理。...原创 2018-12-12 09:24:33 · 17317 阅读 · 0 评论 -
Python基础:列表、元组和字典
Python中最为常用的数据容器有列表、元组和字典。是使用Python必须掌握的基础。本文详细介绍列表、元组和字典,以及字典的两种(按照key排序和按照value排序)排序方法。一、列表1.创建list1 = [1,2,3,4,5,6]list2 = ['a','b','c','d','e']list3 = [1,'2',[3,"a"],(5,6)]特殊的创建方法:li...原创 2018-12-21 14:09:21 · 5072 阅读 · 1 评论 -
问题解决: ValueError: Can't Handle mix of binary and continuous
昨天做了随机森林回归预测,但是在做模型评估时报了如题所示的错误: ValueError: Can't Handle mix of binary and continuous报错代码如下:precision, recall, F1, _ = precision_recall_fscore_support(y_test, pred_test, average="binary")其实一开...原创 2018-12-14 10:40:37 · 27527 阅读 · 9 评论 -
机器学习:sklearn算法参数选择--网格搜索
机器学习中很多算法的参数选择是个比较繁琐的问题,人工调参比较费时,好在sklearn给我们提供了网格搜索参数的方法,其实就是类似暴力破解,先设定一些参数的取值,然后通过gridsearch,去寻找这些参数中表现的最好的参数。我们依旧使用上一节的泰坦尼克号生存者预测数据集。同样使用随机森林算法,看看girdsearch如何使用。先设置要调的参数和对应的取值:param_grid = {...原创 2018-12-14 10:28:05 · 3259 阅读 · 0 评论 -
机器学习:Python模型的保存与读取
在学习机器学习的过程中,很多人都应该有这样的疑问:模型训练好了,以后要用怎么办呢?肯定不能再跑一边数据,重新训练模型以供使用,因为这样太费时间。最好的办法当然是,训练和预测分开。训练好模型后,将模型保存好,当需要预测时,直接读取模型文件来调用,进行预测。无论是sklearn还是TensorFlow,都有模型的保存和调用方法。这里我们介绍使用pickle进行模型保存和调用的方法。1.导入pick...原创 2018-12-04 09:20:55 · 13479 阅读 · 2 评论 -
机器学习:sklearn模型指标和特征贡献度查看
模型训练完成后,即使模型评估很好,各项指标都很到位,业务人员肯定也是心里没底的,哪怕有模型公式,他们也看不懂啊。咋整,当然是先把模型的重要评估指标打印给他们看,再把特征贡献度从大到小,画成图给他们看啦。今天就通过sklearn实现模型评估指标和特征贡献度的图形查看。本文的数据集采用泰坦尼克号幸存者数据。使用sklearn的决策树和随机森林进行预测,然后查看模型的评估指标,最后将特征的贡献度从大...原创 2018-12-13 11:30:12 · 28076 阅读 · 13 评论 -
数据分析:Pandas单变量图形分析
在数据分析过程中,常常会对每个或部分特征变量进行数据分析,而图形展示最为直观。今天就来学习下,如何通过pandas实现单变量的统计图。数据集依旧是Kaggle的Give Me Some Credits。首先,读取数据。import pandas as pdimport matplotlib.pyplot as pltdata = pd.read_csv('/cs-training....原创 2018-12-12 14:11:03 · 800 阅读 · 0 评论