数据分析
文章平均质量分 91
风信子的故事
这个作者很懒,什么都没留下…
展开
-
常用的70个数据分析网址
数据可视化工具百度ECharts http://echarts.baidu.com/ Cytoscape http://www.cytoscape.org/ 图表秀 http://www.tubiaoxiu.com/ 数据观 http://shujuguan.cn/ 微博足迹可视化 http://vis.pku.edu.cn/weibova/weibogeo_footprint/index.html BDP个人版 https://me.bdp...原创 2021-08-04 10:18:31 · 761 阅读 · 0 评论 -
个人信贷违约预测
本次分享一个数据挖掘实战项目:个人信贷违约预测,此项目对于想要学习信贷风控模型的同学非常有帮助,数据和源码在文末。项目背景当今社会,个人信贷业务发展迅速,但同时也会暴露较高的信用风险。信息不对称在金融贷款领域突出,表现在过去时期借款一方对自身的财务状况、还款能力及还款意愿有着较为全面的掌握,而金融机构不能全面获知借款方的风险水平,或在相关信息的掌握上具有明显的滞后性。这种信息劣势,使得金融机构在贷款过程中可能由于风险评估与实际情况的偏离,产生资金损失,直接影响金融机构的利润水平。而现今时间金原创 2021-08-04 09:35:46 · 4172 阅读 · 9 评论 -
16个实用 Matplotlib 绘图实用小技巧
本文主要 16个 Matplotlib 绘图实用的小技巧。1. 添加标题-titlematplotlib.pyplot 对象中有个title()可以设置表格的标题。import numpy as npimport matplotlib.pyplot as plt# 显示中文plt.rcParams['font.sans-serif'] = [u'SimHei']plt.rcParams['axes.unicode_minus'] = False%matplotlib inl...原创 2021-08-04 09:24:47 · 138 阅读 · 0 评论 -
python 数据合并函数merge( )
python中的merge函数与sql中的 join 用法非常类似,以下是merge( )函数中的参数:merge(left, right, how='inner', on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=False, suffixes=('_x', '_y'), cop...原创 2019-04-28 17:31:34 · 2274 阅读 · 0 评论 -
python中的list和array的区别以及range和arange()区别的详解
python中的list是python的内置数据类型,list中的数据类不必相同的,而array的中的类型必须全部相同。在list中的数据类型保存的是数据的存放的地址,简单的说就是指针,并非数据,这样保存一个list就太麻烦了,例如list1=[1,2,3,'a']需要4个指针和四个数据,增加了存储和消耗cpu。numpy中封装的array有很强大的功能,里面存放的都是相同的数据...原创 2019-01-13 21:56:14 · 5653 阅读 · 1 评论 -
交叉表(crosstab)和透视表(pivotTab)
import numpy as npimport pandas as pd"""1:透视表(pivotTab)透视表是将原有的DataFrame的列分别作为行索引和列索引,然后对指定的列应用聚集函数"""df = pd.DataFrame({'类别':['水果','水果','水果','蔬菜','蔬菜','肉类','肉类'], '产地':['美国',...原创 2018-12-19 19:55:09 · 9671 阅读 · 0 评论 -
pandas中的GroupBy函数
"""pandas提供了一个灵活高效的groupby功能,它使你能一种自然地方式对数据集进行切片,切换,摘要等操作。根据一个或者多个键(可以是函数可以是数组或者DataFrame列名)拆分pandas对象。计算分组摘要统计,如计数、平均数、标准差、或者用户自定义的函数1:首先看看下面这个非常简单的表格性数据集"""import pandas as pdimport numpy a...原创 2018-12-19 18:14:12 · 4600 阅读 · 0 评论 -
容易错误之处
data=pd.read_csv("E:/数据挖掘/源码/源码/第6周/hexun.xls")1:把得到的数据转化为数组的形式 data.values2:将得到的数据进行转置dataf=data.T3:得到数组的行数line=len(data.values)4:得到数组的列数:col=len(data.values[0])5:得到数据的标题dat...原创 2018-09-19 21:36:24 · 115 阅读 · 0 评论 -
python大数据挖掘系列之淘宝商城数据预处理实战
商品数据挖掘数据清洗:所谓的数据清洗,就是把一些异常的、缺失的数据处理掉,处理掉不一定是说删除,而是说通过某些方法将这个值补充上去,数据清洗目的在于为了让我们数据的可靠,因为脏数据会对数据分析产生影响。拿到数据后,我们进行数据清洗分为两方面:缺失值发现:可以查找 异常值发现:画图分析缺失值:在下载数据、搜集数据的时候刚好就缺失。可以通过查找的方法去发现。 异常值:不一定就是异常...翻译 2018-09-19 21:06:28 · 1136 阅读 · 0 评论