自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 资源 (8)
  • 收藏
  • 关注

原创 Dataframe求众数的解决方法

Pandas在实际使用过程中,遇到如下问题。有如下一个Dataframe,打算对A的每一个类别求B的众数,但是不能使用Dataframe.groupby('A').mode(),报如下错误。>>import pandas as pd>>df = pd.DataFrame({'A':['a','a','a','a','b','b','b','b','b'],'B'...

2018-11-26 15:01:00 10261

原创 np.newaxis知识点整理

做kaggle比赛时,看到有方法中用到np.newaxis,现将知识点整理如下。>>import numpy as np>>type(np.newaxis)NoneType>>np.newaxis == NoneTrue可以发现np.newaxi等价于 None。1>>x = np.array([0, 1, 2])>...

2018-11-23 10:41:43 241

转载 Python数据可视化-seaborn

详细介绍可以看seaborn官方API和example galler。1  set_style( )  set( )set_style( )是用来设置主题的,Seaborn有五个预设好的主题: darkgrid , whitegrid , dark , white ,和 ticks  默认: darkgriimport matplotlib.pyplot as plt  impor...

2018-11-22 17:29:31 1636

转载 seaborn.heatmap操作手册

本文转自seaborn.heatmap官方操作手册:http://seaborn.pydata.org/generated/seaborn.heatmap.htmlheatmap很好,很强大!seaborn.heatmapseaborn0.9.0seaborn.heatmap(data, vmin=None, vmax=None, cmap=None, center=None, r...

2018-11-22 16:33:19 5742 1

原创 回归评价指标:MSE、RMSE、MAE、R2、Adjusted R2

我们通常采用MSE、RMSE、MAE、R2来评价回归预测算法。1、均方误差:MSE(Mean Squared Error)其中,为测试集上真实值-预测值。2、均方根误差:RMSE(Root Mean Squard Error)可以看出,RMSE=sqrt(MSE)。3、平均绝对误差:MAE(Mean Absolute Error)以上各指标,根据不同业务,会有不...

2018-11-22 14:36:01 185444 25

原创 关于XGB.booster()报错TypeError: 'str' object is not callable的解决方法

 当使用XGB想得到特征重要性时报错,代码及报错如下,model = XGBRegressor( learning_rate = 0.1, n_estimators = 300, max_depth = 7, min_child_weight = 3, subsample = 0.8, colsample_bytree = 0.8, s...

2018-11-22 10:02:07 4289 1

原创 Selenium+Python爬取房天下二手房数据

注意!注意!注意!本文中大图较多,建议使用PC查看,手机端效果较差!在上篇“Selenuim+Python网络爬虫基础讲解”博文中讲了一些Selenium的基础知识,接下来就要开始实战了。其实使用Selenium爬取网页的思路很简单,首先梳理一下爬取流程。打开二手房珠海地区首页http://zh.esf.fang.com/,首先会出现一个屏蔽页,我们需要点击“我知道了”,才能继续点击其...

2018-11-16 12:07:49 3596 5

原创 Selenium+Python网络爬虫基础讲解

环境搭建使用selenium打开谷歌浏览器下载谷歌浏览器,并根据浏览器版本安装对应的Chromedriver。查询chromedriver支持版本:selenium之 chromedriver与chrome版本映射表(更新至v2.43)资源下载地址:所有版本chrome、chromedriver、firefox下载链接将下载好的Chromedriver放置到python的安装目...

2018-11-16 11:27:45 377

原创 数据平滑(log1p和exmp1)

log1p将一个数据压缩到了一个区间,与数据的标准化类似。log1p函数有它存在的意义,即保证了x数据的有效性,当x很小时(如某个数值为1e-99),由于太小超过数值有效性,用log计算得到结果为0,换作log1p则计算得到一个很小却不为0的结果。下图是numpy.log1p说明文档中给出的一个例子。log1p的优点:在数据预处理时首先可以对偏度比较大的数据用log1p函数进行转化,...

2018-11-14 16:06:13 1790

转载 Matplotlib及Seaborn中文显示问题

当使用Matplotlib及Seaborn绘图时,图中中文字符不能正常显示,会出现“□”字符。解决方法如下。Matplotlibimport numpy as npimport matplotlib.pyplot as pltplt.rcParams['font.sans-serif'] = ['SimHei'] # 解决中文显示问题-设置字体为黑体plt.rcParams['a...

2018-11-13 10:26:34 3481

原创 数据分析处理问题小例子(wine数据集)

刚学数据分析时做的小例子,从notebook上复制过来,留个纪念~数据集是从UCI上download下来的Wine数据集,下载地址,这是一个多分类问题,类别标签为1,2,3。先瞅瞅数据,import numpy as npimport pandas as pdfrom sklearn.linear_model import LogisticRegression #逻辑斯特回归...

2018-11-12 23:24:57 20206 3

原创 Python 中pandas读取文件提示Initializing from file failed错误

当你用pandas读取文件报这种错误时,一般是因为你的文件名中带有中文,例如:res = pd.read_csv('我的文件.csv')这种请款就会报错,进行如下操作即可,f = open('我的文件.csv')res = pd.read_csv(f) ...

2018-11-12 14:40:54 1727 1

原创 利用Python实现csv文件的合并和去重

方法一:这种方法需要引入glob模块glob模块是最简单的模块之一,内容非常少。用它可以查找符合特定规则的文件路径名。跟使用windows下的文件搜索差不多。查找文件只用到三个匹配符:”*”, “?”, “[]”。”*”匹配0个或多个字符;”?”匹配单个字符;”[]”匹配指定范围内的字符,如:[0-9]匹配数字。具体实现如下:import pandas as pdimport ...

2018-11-12 14:38:24 16099 3

原创 LightGBM调参笔记

1. 概述在竞赛题中,我们知道XGBoost算法非常热门,是很多的比赛的大杀器,但是在使用过程中,其训练耗时很长,内存占用比较大。在2017年年1月微软在GitHub的上开源了LightGBM。该算法在不降低准确率的前提下,速度提升了10倍左右,占用内存下降了3倍左右。LightGBM是个快速的,分布式的,高性能的基于决策树算法的梯度提升算法。可用于排序,分类,回归以及很多其他的机器学习任务中...

2018-11-05 17:01:24 66211 26

转载 GBDT调参笔记

转:http://www.cnblogs.com/pinard/p/6143927.html 1. scikit-learn GBDT类库概述在sacikit-learn中,GradientBoostingClassifier为GBDT的分类类, 而GradientBoostingRegressor为GBDT的回归类。两者的参数类型完全相同,当然有些参数比如损失函数loss的可选择项并不相...

2018-11-05 12:10:22 375

原创 随机森林调参笔记

1. scikit-learn随机森林类库概述    在scikit-learn中,RF的分类类是RandomForestClassifier,回归类是RandomForestRegressor。当然RF的变种Extra Trees也有, 分类类ExtraTreesClassifier,回归类ExtraTreesRegressor。由于RF和Extra Trees的区别较小,调参方法基本相同,...

2018-11-05 10:08:24 1781 2

原创 XGBoost调参笔记

将之前XGBoost的笔记整理在CSDN上。一、通用参数一、这些参数用来控制XGBoost的宏观功能。1、booster[默认gbtree] 选择每次迭代的模型,有两种选择: gbtree:基于树的模型 gbliner:线性模型2、silent[默认0] 当这个参数值为1时,静默模式开启,不会输出任何信息。 一般这个参数就保持默认的0,因为这样能帮我们更好地理解模型。3、nth...

2018-11-02 12:30:05 24328 4

quakers关系网络数据源

包含quakers数据,networkx学习使用,练手的珍贵数据。

2020-06-16

2018Pycharm汉化包

本压缩包主要解决pycharm2018.2汉化后无法打开设置的问题,使用方法就是把解压出来的jar包直接放到lib文件夹下即可!

2019-01-17

Wine数据集

UCI标准数据集中的Wine数据集,可以用来数据分析或机器学习

2018-11-12

吴恩达机器学习训练手册

吴恩达机器学习训练手册,详细讲解了如何进行训练,和训练中需要注意的要点。

2018-10-26

混淆矩阵、ROC、AUC

利用Python随机生成测试数据,计算混淆矩阵,绘制ROC和AUC

2018-09-29

关于北京pm2.5数据

北京的美国大使馆记录了4年的北京pm2.5数据,包括8个特征

2018-09-20

Beijing PM2.5 Data Set

Beijing PM2.5 Data Set(UCI Machine Learning Repository数据集)常用于时序预测问题。

2018-09-20

python词云进阶——三国版

掌握了初步的词云制作流程。出于对三国历史的喜爱,因此想制作一个关于《三国演义》版的词云,以一个新的角度去看这段历史。但由于本人掌握的数据分析技术有限,直接处理原版的《三国演义》难度很大(因为原版中很多简称,例如“公”、只称名不称姓等),因此文本内容使用的是《白话三国》(电子赵括 著)的TXT版本。

2018-08-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除