机器学习与数据分析
爱跑步的george
北京邮电大学
展开
-
银行离岸汇款客户交易预测
银行离岸汇款客户交易预测这是2018年招商银行最新的Fintech的复试习题,对于初学者而言,个人认为是一个不错的习题。 我在写这篇博客的时候,在这道数据分析题上已经战斗了5天,目前为止虽然得分不高,但是已经取得了阶段性的胜利。 在接下来几天里我回持续公布自己的思路,用到的方法。 希望与有志于数据分析的童鞋们切磋经验,欢迎留言交流! ## 赛题背景 离岸汇款作为境外汇款的重点,通过...原创 2018-05-07 00:32:17 · 402 阅读 · 0 评论 -
分类问题——样本不均衡
数据层:通过重采样使样本空间均衡算法层:重点学习正样本来适应现存的分类器损失敏感方法:整合数据层和算法层的思想,假设正样本误分类的损失更大。boosting算法:不断提高样本权重1、数据层方法1、对正样本随机过采样,对负样本随机下采样。2、按照样本特征和比例来过采样正样本或下采样负样本,虽然重采样在样本不均衡问题中经常使用,但是如何确定最好的数据分布比例呢?在一片论文中降到了,实验表...原创 2019-05-23 15:13:24 · 1329 阅读 · 0 评论 -
周志华西瓜书课后习题答案总目录
https://blog.csdn.net/icefire_tyh/article/details/52064910机器学习(周志华西瓜书)参考答案总目录从刚开始学习机器学习到现在也有几个月了,期间看过PDF,上过MOOC,总感觉知道一点了又不是特别明白,最后趁某东买书大减价弄了几本相关的书来看看,其中一本就是西瓜书。一口气看了前10章,感觉每章内容都很少,看完感觉还是和以前一样。每章的习题都...原创 2019-04-17 22:33:51 · 33933 阅读 · 5 评论 -
必须整得明明白白——pandas df.quantile()
pd.DataFrame(np.array([[1, 1], [2, 10], [3, 100], [4, 100]]),columns=[‘a’, ‘b’]).quantile([.1,.2,.3,.4, .5,.6,.7,.8])a b0.1 1.3 3.70.2 1.6 6.40.3 1.9 9.10.4 2.2 28.00.5 2.5 55.00.6 2.8 82....原创 2019-01-26 11:09:12 · 6998 阅读 · 0 评论 -
box-cox变换
参加kaggle比赛过程中,看到很多人在预处理阶段会对某些特征X做如下操作 Y = log(1+X), 说是可以把这个特征的分布正态化, 使其更加符合后面数据挖掘方法对数据分布的假设. 自己试了一下,有时的确可以提高准确度,有时却降低了准确度,很好奇其中的原理,遂在网上搜索了一番,整理如下. Y = log...原创 2019-01-17 10:09:42 · 781 阅读 · 0 评论 -
numpy中的tile方法
在讲tile方法之前,先要讲一下Numpy数组中的几个概念。在NumPy中,数组这一类又被称为ndarray。1、ndarray.ndim指数组的维度,即数组轴(axes)的个数,其数量等于秩(rank)。通俗地讲,我们平时印象中的数组就是一维数组,维度为1、轴的个数为1、秩也等于1;最常见的矩阵就是二维数组,维度为2、轴的个数为2(...转载 2018-12-25 21:01:07 · 2692 阅读 · 0 评论 -
如何学习pandas
1.为什么学pandas.数据挖掘和机器学习相关比赛,总是需要对大量CSV文件进行分析整理,pandas是基于numpy开发的Python包,但是如何才能快速学会运用这个工具呢?2.看文档。有很多关于pandas的书籍,但是书不能同步更新,并且书也大都是从文档抄写过来的,所以别人加工之后的东西总没有原文档丰富。下面这个文档如果真的可以全部给过一遍,pandas基本就很厉害了。http://pa...原创 2018-12-25 09:58:10 · 666 阅读 · 0 评论 -
kaggle平台介绍
常见的竞赛类型如下,后面有具体的介绍。a)入门,官方为新手入门准备的三个小项目,有提供答案。b)游乐场,新手进阶练习项目,提高技能。c)精选,企业给出的前沿项目比赛,组队刷比赛,有标准排名d)研究,大神的世界。入门 新手入门级比赛是Kaggle最简单,最平易近人的比赛。这些是半永久性的比赛,旨在被新用户用于进入机器学习领域的第一步。他们没...原创 2018-12-24 20:13:07 · 2623 阅读 · 0 评论 -
我们一起学Scipy——Tutorial学习法
强烈推荐这个教程https://docs.scipy.org/doc/scipy/reference/tutorial/general.html最近发现文档学习法才是最好的学习方法。我甚至认为以为培训机构都是骗子,因为他们讲课的内容全是来源于文档,官方文档一般都非常有条理,并且是最好的学习资料,没有之一。为什么一般人刚开始不想看文档,结合我自己的经验,我认为有以下几个原因:根本不知道有...原创 2019-01-03 20:34:15 · 511 阅读 · 0 评论 -
numpy数组下标没有最大限制
>>> import numpy as np>>> a = np.array([1,2,3])>>> aarray([1, 2, 3])>>> a[2:6]array([3])>>>原创 2018-10-23 11:21:32 · 1218 阅读 · 0 评论 -
pandas 2: 更改pandas dataframe 列的顺序
这是我的df: Net Upper Lower Mid ZsoreAnswer option More than once a day 0% 0.22% -0.12% 2 65 Once a day ...原创 2018-05-22 22:52:20 · 7681 阅读 · 0 评论 -
pandas 的 object 类型
dataframe中的 object 类型来自于 Numpy, 他描述了每一个元素 在 ndarray 中的类型 (也就是Object类型)。而每一个元素在 ndarray 中 必须用同样大小的字节长度。 比如 int64 float64, 他们的长度都是固定的 8 字节。但是对于string 来说,string 的长度是不固定的, 所以pandas 储存string时 使用 narray,...原创 2018-05-22 10:50:31 · 4628 阅读 · 0 评论 -
pandas 1: pandas.Series.map
菜鸟教程 pandas.Series.map Series.map(arg, na_action=None)[source] Map values of Series using input correspondence (which can be a dict, Series, or function)Parameters: arg : function, dict, or Ser...原创 2018-05-14 19:36:04 · 441 阅读 · 2 评论 -
matplotlib.pyplot dataframe画图调节大小
错解plt.figure(figsize=(20,10)boy = stu_info.籍贯[stu_info.性别=='男'].value_counts()girl = stu_info.籍贯[stu_info.性别=='女'].value_counts()df_sex =pd.DataFrame({'男':boy,'女':girl})df_sex.plot(kind='bar',st...原创 2018-05-14 16:49:54 · 19484 阅读 · 1 评论 -
trick: matlotlib在jupyter notebook 里中文乱码解决
使用下面代码的前提是:必须已经安装第二行代码中的字体import matplotlib.pyplot as pltmpl.rcParams['font.sans-serif']=[u'SimHei']mpl.rcParams['axes.unicode_minus']=False原创 2018-05-14 11:36:57 · 470 阅读 · 0 评论 -
python处理数据低效总结
大量使用dataframe.loc or iloc会非常低效大量使用for循环会非常低效,可以使用多进程或者cpython来解决问题原创 2019-08-13 14:35:41 · 266 阅读 · 0 评论