python
genghaihua
这个作者很懒,什么都没留下…
展开
-
seaborn heatmap 热力图
fig, axes =plt.subplots(1,2)# print(train_df.corr())sns.heatmap(train_df.corr(), square=True, annot=True,ax=axes[0])sns.heatmap(train_df.corr(), annot=True,ax=axes[1])plt.show()可以看到各个特征变量之间的相关性都比较小(一般相关系数大于0.6可以进行变量剔除)。...原创 2020-05-21 18:04:01 · 1131 阅读 · 0 评论 -
seaborn violinplot小提琴图
小提琴图是用来展示多组数据的分布状态以及概率密度。跟箱线图类似,但是可以密度层面展示更好。在数据量非常大不方便一个一个展示的时候小提琴图特别适用。小提琴图如下:小提琴图各位置对应参数,中间一条就是箱线图数据,25%,50%,75%位置,细线区间为95%置信区间。import pandas as pdimport numpy as npimport seaborn as snsimport matplotlib.pyplot as pltpd.set_option('d..原创 2020-05-21 16:48:07 · 1541 阅读 · 0 评论 -
seaborn boxplot 箱线图
# coding=utf-8import pandas as pdimport numpy as npimport seaborn as snsimport matplotlib.pyplot as pltpd.set_option('display.max_columns', None)pd.set_option('display.width', None)plt.rcParams['font.sans-serif']=['SimHei'] #显示中文标签plt.rcParams['f.原创 2020-05-21 16:23:59 · 1909 阅读 · 0 评论 -
Seaborn distplot 核密度估计和直方图估计混合
# coding=utf-8import pandas as pdimport numpy as npimport seaborn as snsimport matplotlib.pyplot as pltpd.set_option('display.max_columns', None)pd.set_option('display.width', None)plt.rcParams['font.sans-serif']=['SimHei'] #显示中文标签plt.rcParams['f.原创 2020-05-21 15:22:17 · 681 阅读 · 0 评论 -
seaborn kdeplot 核密度估计
# coding=utf-8import pandas as pdimport numpy as npimport seaborn as snsimport matplotlib.pyplot as pltpd.set_option('display.max_columns', None)pd.set_option('display.width', None)plt.rcParams['font.sans-serif']=['SimHei'] #显示中文标签plt.rcParams['f.原创 2020-05-21 14:50:13 · 970 阅读 · 1 评论 -
seaborn countplot 统计
value counts for a single and tow categorical variable # coding=utf-8import pandas as pdimport numpy as npimport seaborn as snsimport matplotlib.pyplot as pltpd.set_option('display.max_columns', None)pd.set_option('display.width', None)plt....原创 2020-05-21 14:18:39 · 831 阅读 · 0 评论 -
python利用eval方法提升dataframe运算性能
eval方法可以直接利用c语言的速度,而不用分配中间数组,不需要中间内存的占用.如果包含多个步骤,每个步骤都要分配一块内存import numpy as npimport pandas as pdimport timeitdf = pd.DataFrame({'a': np.random.randn(10000000), 'b': np....原创 2019-06-19 16:47:28 · 1957 阅读 · 0 评论 -
numpy copy(无拷贝 浅拷贝、深拷贝)类型说明
numpy copy分为三种,no copy,shallow copy or view,deep copy三种。1 无拷贝简单的复制操作不会产生对象的复制操作。import numpy as npa = np.arange(12)b=a #对象复制,a,b地址一样b.shape = 3,4 #a对象的shape也会变化2 浅拷贝 view操作,如numpy的slic...原创 2019-06-19 10:52:44 · 22219 阅读 · 2 评论 -
Python内存池管理与缓冲池设计
Python是一门开发效率很高的语言,而且其既下里巴人,又阳春白雪。也就是说这门语言只要稍加学习就可以上手开发,而深入探究也会发现Python有很多高深的东西。最近读了《Python源码剖析》,收获良多,今天就把Python的内存管理整理一番。本文的组织如下:第一部分:整理Python的内存管理机制,主要包括内存池以及对象缓存池第二部分:从百度的笔试题来探讨如何实现一个缓存池。第一部...转载 2019-06-02 12:59:32 · 320 阅读 · 0 评论 -
python DataFrame onehot编码,一列变多列
import pandas as pdcarria_code_dict={"CZ":0,"SC":1,"Y8":2,"3U":3,"MU":4,"NS":5}carria_len=carria_code_dict.__len__()def encode_data(str): datas=str.split(',') encode_result=['0']*carria_le...原创 2019-05-08 17:37:45 · 3655 阅读 · 0 评论 -
python dataframe 两列相加或者拼接转换成一列
import pandas as pdif __name__ == "__main__": df= pd.read_csv('C:\Users\haihua.geng\Downloads\dataa.txt',sep="\t",names=["col1","col2"]) print df df['col']=df['col1']+df['col2'] print df...原创 2018-12-29 16:12:36 · 68033 阅读 · 0 评论 -
爬
#coding: utf-8import urllib2import urllibimport reimport threadimport time#----------- 处理页面上的各种标签 -----------class HTML_Tool: BgnCharToNoneRex = re.compile("(\t|\n| ||)") CharToNewLin转载 2014-01-02 16:28:21 · 617 阅读 · 0 评论 -
python安装模块
cmd运行到安装模块所在的文件下,输入python setup.py install原创 2014-01-03 20:33:36 · 644 阅读 · 0 评论 -
python 遇到 syntaxerror: non-ascii character '/xd6' in file
遇到标题上的问题,按照我的解决广方案来吧=====================================(一)用记事本创建一个文件ChineseTest.py,默认ANSI:s = "中文"print s测试一下瞧瞧:E:/Project/Python/Test>python ChineseTest.pyFile "ChineseT转载 2013-12-24 11:32:03 · 708 阅读 · 0 评论 -
python 字典的 setdefault用法
获取字典的信息,若key不存在,就加上这个(key,value)项目,存在则字典保持不变。a={"key":12345,"hh":22}print(a)a.setdefault('key','456')print(a)a.setdefault('key1','456')print(a)原创 2013-12-24 14:12:59 · 1047 阅读 · 0 评论 -
numpy在centos下的安装
安装相关工具。[root@localhostmyhaspl]# yum install wget[root@localhostmyhaspl]# yum install unzip[root@localhostmyhaspl]# yum install gcc[[email protected]]# yum install python-devel转载 2015-03-16 14:31:38 · 11755 阅读 · 1 评论 -
python slice array
python数组切片分着正序和倒序a=[1,2,3,4,5,6,7,8]翻转数组的另一种方式:a[::-1]逆序slice ,start step must be bigger than end stepfor example you can use a[7:3:-1] to print out the slice array,but you can not use it for原创 2017-04-26 21:45:00 · 851 阅读 · 0 评论 -
python pandas xgboost sklearn 等安装
sudo yum install python-pip -y最近要对一系列数据做同比比较,需要用到numpy和pandas来计算,不过使用python安装numpy和pandas因为linux环境没有外网遇到了很多问题就记下来了。首要条件,python版本必须是2.7以上。linux首先安装依赖包sudo pip install setuptools --upgradepython -m pip ...原创 2018-06-28 10:50:49 · 1282 阅读 · 0 评论 -
python OptionParser
from optparse import OptionParserfrom optparse import OptionGroupimport sysif __name__ == "__main__": parser = OptionParser(usage="My Parser") group = OptionGroup(parser, "Dangerous Option...原创 2018-12-21 13:04:25 · 612 阅读 · 0 评论 -
python BeautifulSoup的安装
下载文件后解压,在cmd命令后进入BeautifulSoup文件的目录,依次输入python setup.py buildpython setup.py install 注意要事先配置好python的环境变量。引用需用from bs4 import BeautifulSoup原创 2013-11-11 09:51:57 · 944 阅读 · 0 评论