- 博客(17)
- 资源 (8)
- 收藏
- 关注
原创 Dataframe求众数的解决方法
Pandas在实际使用过程中,遇到如下问题。有如下一个Dataframe,打算对A的每一个类别求B的众数,但是不能使用Dataframe.groupby('A').mode(),报如下错误。>>import pandas as pd>>df = pd.DataFrame({'A':['a','a','a','a','b','b','b','b','b'],'B'...
2018-11-26 15:01:00 10261
原创 np.newaxis知识点整理
做kaggle比赛时,看到有方法中用到np.newaxis,现将知识点整理如下。>>import numpy as np>>type(np.newaxis)NoneType>>np.newaxis == NoneTrue可以发现np.newaxi等价于 None。1>>x = np.array([0, 1, 2])>...
2018-11-23 10:41:43 241
转载 Python数据可视化-seaborn
详细介绍可以看seaborn官方API和example galler。1 set_style( ) set( )set_style( )是用来设置主题的,Seaborn有五个预设好的主题: darkgrid , whitegrid , dark , white ,和 ticks 默认: darkgriimport matplotlib.pyplot as plt impor...
2018-11-22 17:29:31 1636
转载 seaborn.heatmap操作手册
本文转自seaborn.heatmap官方操作手册:http://seaborn.pydata.org/generated/seaborn.heatmap.htmlheatmap很好,很强大!seaborn.heatmapseaborn0.9.0seaborn.heatmap(data, vmin=None, vmax=None, cmap=None, center=None, r...
2018-11-22 16:33:19 5742 1
原创 回归评价指标:MSE、RMSE、MAE、R2、Adjusted R2
我们通常采用MSE、RMSE、MAE、R2来评价回归预测算法。1、均方误差:MSE(Mean Squared Error)其中,为测试集上真实值-预测值。2、均方根误差:RMSE(Root Mean Squard Error)可以看出,RMSE=sqrt(MSE)。3、平均绝对误差:MAE(Mean Absolute Error)以上各指标,根据不同业务,会有不...
2018-11-22 14:36:01 185444 25
原创 关于XGB.booster()报错TypeError: 'str' object is not callable的解决方法
当使用XGB想得到特征重要性时报错,代码及报错如下,model = XGBRegressor( learning_rate = 0.1, n_estimators = 300, max_depth = 7, min_child_weight = 3, subsample = 0.8, colsample_bytree = 0.8, s...
2018-11-22 10:02:07 4289 1
原创 Selenium+Python爬取房天下二手房数据
注意!注意!注意!本文中大图较多,建议使用PC查看,手机端效果较差!在上篇“Selenuim+Python网络爬虫基础讲解”博文中讲了一些Selenium的基础知识,接下来就要开始实战了。其实使用Selenium爬取网页的思路很简单,首先梳理一下爬取流程。打开二手房珠海地区首页http://zh.esf.fang.com/,首先会出现一个屏蔽页,我们需要点击“我知道了”,才能继续点击其...
2018-11-16 12:07:49 3596 5
原创 Selenium+Python网络爬虫基础讲解
环境搭建使用selenium打开谷歌浏览器下载谷歌浏览器,并根据浏览器版本安装对应的Chromedriver。查询chromedriver支持版本:selenium之 chromedriver与chrome版本映射表(更新至v2.43)资源下载地址:所有版本chrome、chromedriver、firefox下载链接将下载好的Chromedriver放置到python的安装目...
2018-11-16 11:27:45 377
原创 数据平滑(log1p和exmp1)
log1p将一个数据压缩到了一个区间,与数据的标准化类似。log1p函数有它存在的意义,即保证了x数据的有效性,当x很小时(如某个数值为1e-99),由于太小超过数值有效性,用log计算得到结果为0,换作log1p则计算得到一个很小却不为0的结果。下图是numpy.log1p说明文档中给出的一个例子。log1p的优点:在数据预处理时首先可以对偏度比较大的数据用log1p函数进行转化,...
2018-11-14 16:06:13 1790
转载 Matplotlib及Seaborn中文显示问题
当使用Matplotlib及Seaborn绘图时,图中中文字符不能正常显示,会出现“□”字符。解决方法如下。Matplotlibimport numpy as npimport matplotlib.pyplot as pltplt.rcParams['font.sans-serif'] = ['SimHei'] # 解决中文显示问题-设置字体为黑体plt.rcParams['a...
2018-11-13 10:26:34 3481
原创 数据分析处理问题小例子(wine数据集)
刚学数据分析时做的小例子,从notebook上复制过来,留个纪念~数据集是从UCI上download下来的Wine数据集,下载地址,这是一个多分类问题,类别标签为1,2,3。先瞅瞅数据,import numpy as npimport pandas as pdfrom sklearn.linear_model import LogisticRegression #逻辑斯特回归...
2018-11-12 23:24:57 20206 3
原创 Python 中pandas读取文件提示Initializing from file failed错误
当你用pandas读取文件报这种错误时,一般是因为你的文件名中带有中文,例如:res = pd.read_csv('我的文件.csv')这种请款就会报错,进行如下操作即可,f = open('我的文件.csv')res = pd.read_csv(f) ...
2018-11-12 14:40:54 1727 1
原创 利用Python实现csv文件的合并和去重
方法一:这种方法需要引入glob模块glob模块是最简单的模块之一,内容非常少。用它可以查找符合特定规则的文件路径名。跟使用windows下的文件搜索差不多。查找文件只用到三个匹配符:”*”, “?”, “[]”。”*”匹配0个或多个字符;”?”匹配单个字符;”[]”匹配指定范围内的字符,如:[0-9]匹配数字。具体实现如下:import pandas as pdimport ...
2018-11-12 14:38:24 16099 3
原创 LightGBM调参笔记
1. 概述在竞赛题中,我们知道XGBoost算法非常热门,是很多的比赛的大杀器,但是在使用过程中,其训练耗时很长,内存占用比较大。在2017年年1月微软在GitHub的上开源了LightGBM。该算法在不降低准确率的前提下,速度提升了10倍左右,占用内存下降了3倍左右。LightGBM是个快速的,分布式的,高性能的基于决策树算法的梯度提升算法。可用于排序,分类,回归以及很多其他的机器学习任务中...
2018-11-05 17:01:24 66211 26
转载 GBDT调参笔记
转:http://www.cnblogs.com/pinard/p/6143927.html 1. scikit-learn GBDT类库概述在sacikit-learn中,GradientBoostingClassifier为GBDT的分类类, 而GradientBoostingRegressor为GBDT的回归类。两者的参数类型完全相同,当然有些参数比如损失函数loss的可选择项并不相...
2018-11-05 12:10:22 375
原创 随机森林调参笔记
1. scikit-learn随机森林类库概述 在scikit-learn中,RF的分类类是RandomForestClassifier,回归类是RandomForestRegressor。当然RF的变种Extra Trees也有, 分类类ExtraTreesClassifier,回归类ExtraTreesRegressor。由于RF和Extra Trees的区别较小,调参方法基本相同,...
2018-11-05 10:08:24 1781 2
原创 XGBoost调参笔记
将之前XGBoost的笔记整理在CSDN上。一、通用参数一、这些参数用来控制XGBoost的宏观功能。1、booster[默认gbtree] 选择每次迭代的模型,有两种选择: gbtree:基于树的模型 gbliner:线性模型2、silent[默认0] 当这个参数值为1时,静默模式开启,不会输出任何信息。 一般这个参数就保持默认的0,因为这样能帮我们更好地理解模型。3、nth...
2018-11-02 12:30:05 24328 4
Beijing PM2.5 Data Set
2018-09-20
python词云进阶——三国版
2018-08-13
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人