数据分析挖掘——工具使用
对 pandas jupyter、spark等工具使用说明的总结
春风吹23
这个作者很懒,什么都没留下…
展开
-
Spark学习笔记
Spark基础知识RDD 与 SparkSQL什么是RDD 与 SparkSQLDataFrame 与 RDD 的区别?DataSet三者相同点:RDD的转换、action以及惰性机制、持久化RDD 与 SparkSQL什么是RDD 与 SparkSQLRDD(弹性分布式数据集)(Resilient Distributed DataSet)是一组不可变的JVM对象的分布集,该数据是分布式的基于某种关键字,该数据集被划分成块。同时分发到执行器节点执行(RDD(Resilient Distributed原创 2020-07-30 15:03:57 · 497 阅读 · 0 评论 -
Pandas-分组函数groupby中(apply,agg,transform)方法的比较
pandas模块给数据处理的能力给予了很大的助力,但是初学者刚开始可能会被其中分组聚合的三个方法(apply,agg和transform),弄的头晕眼花,至少我自己学习的过程中是这样的,看了网上的很多解释,觉得对于初学者理解起来还是蛮困难的,翻阅了好几本python数据分析的书籍,自己总算理解了个大概,在这里给大家讲一下这三个方法。具体请看《Python数据科学手册》(Jake Vanderplas著)的146页哈,另外这本书强烈推荐,看过Wes McKinney著的《利用Python进行数据分析》,再看原创 2020-07-27 11:00:45 · 2113 阅读 · 1 评论 -
EDA-数据探索性分析的目标
EDA-数据探索性分析EDA-数据探索性分析的目标EDA-探索步骤整体总览判断数据缺失和异常缺失值判断数据异常判断(非传统的异常值)异常值判断通常使用箱型图或者直方图判断数据的缺失和异常功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释...原创 2020-03-23 21:34:18 · 1025 阅读 · 1 评论 -
Pandas—append的使用技巧与注意事项
在处理缺失数据,对原始数据进行填充的时候,发现如果对于原始数据选循环再更改,改动失败,于是想到新建一个dataframe,在dataframe的基础上对循环里的dataframe进行append操作,然而使用append的时候有个坑,不然append后新的dataframe也是空的.需要对dataframe给出一个名字,d = df.append(df2)贴上代码# -*- cod...原创 2020-03-23 14:08:53 · 1804 阅读 · 0 评论 -
设置jupyter中DataFrame的显示限制
在我们使用jupyter的时候,往往会因为dataframe显示限制,导致我们看不到想要的列或者行,可以通过设置显示行数列数import pandas as pd pd.set_option('display.width', 500) #设置整体宽度pd.set_option('display.height', 500) #设置整体高度 pd.set_op...原创 2020-03-21 16:21:41 · 1369 阅读 · 0 评论 -
对array进行值统计
使用pd.value_countspred_churn = array([0.2, 0.1, 0.1, ..., 0. , 0.2, 0.3])使用pandas.value_counts即可进行值统计,返回的形式是一个seriescounts = pd.value_counts(pred_churn)0.0 17460.1 7320.2 ...原创 2020-02-22 17:43:42 · 2083 阅读 · 0 评论 -
numpy.array使用技巧——数据过滤
numpy.array使用布尔值进行数值过滤>>> x = np.arange(5,0,-1)>>> xarray([5, 4, 3, 2, 1])>>> x[np.array([True, False, True, False, False])]>>> # 下标为True的取出来,布尔数组中下标为0,2的元素为T...原创 2020-02-22 17:23:54 · 1392 阅读 · 0 评论 -
数据清洗——Pandas统计缺失值数量、查看数据信息、数据总体概述
进行数据挖掘的时候,在读取数据后,通常要对所分析建模的数据有一个总体了解。因此需要对数据进行缺失值统计、查看数据分布、查看数据表中每一列的信息等等。这些在pandas中都有现成的工具,直接调用函数,即可对我们的数据进行一个大致的了解。这里我们使用titanic生存者数据,进行演示,数据如下:查看数据信息——titanic.info()titanic.info()...原创 2020-02-15 19:45:40 · 17140 阅读 · 0 评论 -
混淆矩阵的最简单的可视化方法
对于混淆矩阵的可视化,网上大部分都是用matplot进行绘制的,效果如下然而针对这种使用matplot代码的方法,网上找了好几个,都没有绘制成功,而且代码也有点杂。可以使用seaborn进行绘制,简单方便。直接上效果图贴出代码:import seaborn as sn#得到混淆矩阵cm = confusion_matrix(y_test_undersample,y_pred_un...原创 2020-02-12 21:39:36 · 10260 阅读 · 2 评论 -
Jupyter notebook如何打印多个结果
输入以下代码,并在jupyter窗口内运行from IPython.core.interactiveshell import InteractiveShellInteractiveShell.ast_node_interactivity='all'原创 2020-02-12 21:15:39 · 2312 阅读 · 1 评论 -
lgb模型和n折验证的使用
#lgb参数lgb_params = { "boosting_type": "gbdt", "objective": "binary", 'metric': {'binary_logloss', 'auc'}, #二进制对数损失 "learning_rate": 0.01, "max_depth": 7, "num_leaves": 105,...原创 2019-07-20 15:49:18 · 2102 阅读 · 0 评论