2018年11月_浅笑古今

12月 11月 10月 09月 08月 07月

原创 Dataframe求众数的解决方法

Pandas在实际使用过程中，遇到如下问题。有如下一个Dataframe，打算对A的每一个类别求B的众数，但是不能使用Dataframe.groupby('A').mode()，报如下错误。>>import pandas as pd>>df = pd.DataFrame({'A':['a','a','a','a','b','b','b','b','b'],'B'...

2018-11-26 15:01:00 10261

原创 np.newaxis知识点整理

做kaggle比赛时，看到有方法中用到np.newaxis，现将知识点整理如下。>>import numpy as np>>type(np.newaxis)NoneType>>np.newaxis == NoneTrue可以发现np.newaxi等价于 None。1>>x = np.array([0, 1, 2])>...

2018-11-23 10:41:43 241

转载 Python数据可视化-seaborn

详细介绍可以看seaborn官方API和example galler。1 set_style( ) set( )set_style( )是用来设置主题的，Seaborn有五个预设好的主题： darkgrid , whitegrid , dark , white ,和 ticks 默认： darkgriimport matplotlib.pyplot as plt impor...

2018-11-22 17:29:31 1636

转载 seaborn.heatmap操作手册

本文转自seaborn.heatmap官方操作手册：http://seaborn.pydata.org/generated/seaborn.heatmap.htmlheatmap很好，很强大！seaborn.heatmapseaborn0.9.0seaborn.heatmap(data, vmin=None, vmax=None, cmap=None, center=None, r...

2018-11-22 16:33:19 5742 1

原创回归评价指标：MSE、RMSE、MAE、R2、Adjusted R2

我们通常采用MSE、RMSE、MAE、R2来评价回归预测算法。1、均方误差：MSE（Mean Squared Error）其中，为测试集上真实值-预测值。2、均方根误差：RMSE（Root Mean Squard Error）可以看出，RMSE=sqrt（MSE）。3、平均绝对误差：MAE（Mean Absolute Error）以上各指标，根据不同业务，会有不...

2018-11-22 14:36:01 185444 25

原创关于XGB.booster()报错TypeError: 'str' object is not callable的解决方法

当使用XGB想得到特征重要性时报错，代码及报错如下，model = XGBRegressor( learning_rate = 0.1, n_estimators = 300, max_depth = 7, min_child_weight = 3, subsample = 0.8, colsample_bytree = 0.8, s...

2018-11-22 10:02:07 4289 1

原创 Selenium+Python爬取房天下二手房数据

注意！注意！注意！本文中大图较多，建议使用PC查看，手机端效果较差！在上篇“Selenuim+Python网络爬虫基础讲解”博文中讲了一些Selenium的基础知识，接下来就要开始实战了。其实使用Selenium爬取网页的思路很简单，首先梳理一下爬取流程。打开二手房珠海地区首页http://zh.esf.fang.com/，首先会出现一个屏蔽页，我们需要点击“我知道了”，才能继续点击其...

2018-11-16 12:07:49 3596 5

原创 Selenium+Python网络爬虫基础讲解

环境搭建使用selenium打开谷歌浏览器下载谷歌浏览器，并根据浏览器版本安装对应的Chromedriver。查询chromedriver支持版本：selenium之 chromedriver与chrome版本映射表（更新至v2.43）资源下载地址：所有版本chrome、chromedriver、firefox下载链接将下载好的Chromedriver放置到python的安装目...

2018-11-16 11:27:45 377

原创数据平滑（log1p和exmp1）

log1p将一个数据压缩到了一个区间，与数据的标准化类似。log1p函数有它存在的意义，即保证了x数据的有效性，当x很小时（如某个数值为1e-99），由于太小超过数值有效性，用log计算得到结果为0，换作log1p则计算得到一个很小却不为0的结果。下图是numpy.log1p说明文档中给出的一个例子。log1p的优点：在数据预处理时首先可以对偏度比较大的数据用log1p函数进行转化，...

2018-11-14 16:06:13 1790

转载 Matplotlib及Seaborn中文显示问题

当使用Matplotlib及Seaborn绘图时，图中中文字符不能正常显示，会出现“□”字符。解决方法如下。Matplotlibimport numpy as npimport matplotlib.pyplot as pltplt.rcParams['font.sans-serif'] = ['SimHei'] # 解决中文显示问题-设置字体为黑体plt.rcParams['a...

2018-11-13 10:26:34 3481

原创数据分析处理问题小例子（wine数据集）

刚学数据分析时做的小例子，从notebook上复制过来，留个纪念~数据集是从UCI上download下来的Wine数据集，下载地址，这是一个多分类问题，类别标签为1,2,3。先瞅瞅数据，import numpy as npimport pandas as pdfrom sklearn.linear_model import LogisticRegression #逻辑斯特回归...

2018-11-12 23:24:57 20206 3

原创 Python 中pandas读取文件提示Initializing from file failed错误

当你用pandas读取文件报这种错误时，一般是因为你的文件名中带有中文，例如：res = pd.read_csv('我的文件.csv')这种请款就会报错，进行如下操作即可，f = open('我的文件.csv')res = pd.read_csv(f) ...

2018-11-12 14:40:54 1727 1

原创利用Python实现csv文件的合并和去重

方法一：这种方法需要引入glob模块glob模块是最简单的模块之一，内容非常少。用它可以查找符合特定规则的文件路径名。跟使用windows下的文件搜索差不多。查找文件只用到三个匹配符：”*”, “?”, “[]”。”*”匹配0个或多个字符；”?”匹配单个字符；”[]”匹配指定范围内的字符，如：[0-9]匹配数字。具体实现如下：import pandas as pdimport ...

2018-11-12 14:38:24 16099 3

1. 概述在竞赛题中，我们知道XGBoost算法非常热门，是很多的比赛的大杀器，但是在使用过程中，其训练耗时很长，内存占用比较大。在2017年年1月微软在GitHub的上开源了LightGBM。该算法在不降低准确率的前提下，速度提升了10倍左右，占用内存下降了3倍左右。LightGBM是个快速的，分布式的，高性能的基于决策树算法的梯度提升算法。可用于排序，分类，回归以及很多其他的机器学习任务中...

2018-11-05 17:01:24 66211 26

转载 GBDT调参笔记

转：http://www.cnblogs.com/pinard/p/6143927.html　1. scikit-learn GBDT类库概述在sacikit-learn中，GradientBoostingClassifier为GBDT的分类类，而GradientBoostingRegressor为GBDT的回归类。两者的参数类型完全相同，当然有些参数比如损失函数loss的可选择项并不相...

2018-11-05 12:10:22 375

原创随机森林调参笔记

1. scikit-learn随机森林类库概述　　　　在scikit-learn中，RF的分类类是RandomForestClassifier，回归类是RandomForestRegressor。当然RF的变种Extra Trees也有，分类类ExtraTreesClassifier，回归类ExtraTreesRegressor。由于RF和Extra Trees的区别较小，调参方法基本相同，...

2018-11-05 10:08:24 1781 2

原创 XGBoost调参笔记

将之前XGBoost的笔记整理在CSDN上。一、通用参数一、这些参数用来控制XGBoost的宏观功能。1、booster[默认gbtree] 选择每次迭代的模型，有两种选择： gbtree：基于树的模型 gbliner：线性模型2、silent[默认0] 当这个参数值为1时，静默模式开启，不会输出任何信息。一般这个参数就保持默认的0，因为这样能帮我们更好地理解模型。3、nth...

2018-11-02 12:30:05 24328 4

quakers关系网络数据源

包含quakers数据，networkx学习使用，练手的珍贵数据。

2020-06-16

2018Pycharm汉化包

本压缩包主要解决pycharm2018.2汉化后无法打开设置的问题，使用方法就是把解压出来的jar包直接放到lib文件夹下即可！

2019-01-17

Wine数据集

UCI标准数据集中的Wine数据集，可以用来数据分析或机器学习

2018-11-12

吴恩达机器学习训练手册

吴恩达机器学习训练手册，详细讲解了如何进行训练，和训练中需要注意的要点。

2018-10-26

混淆矩阵、ROC、AUC

利用Python随机生成测试数据，计算混淆矩阵，绘制ROC和AUC

2018-09-29

关于北京pm2.5数据

北京的美国大使馆记录了4年的北京pm2.5数据，包括8个特征

2018-09-20

Beijing PM2.5 Data Set

Beijing PM2.5 Data Set（UCI Machine Learning Repository数据集）常用于时序预测问题。