![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python
文章平均质量分 55
zoujiahui_2018
统计学博士
展开
-
sklearn.pipeline的用法介绍
调用Pipeline时,输入中元组构成的列表,每个元组第一个值为变量名,元组第二个元素是sklearn中的transfomer或Esimator,注意中间每一步是transformer,即它们必须包含。下面是一个简单的例子,展示了如何使用 Pipelne 对训练集和测试集进行如下操作: 先用 Siandardscaler对数据集每一列做标准化处理(是。),再用PCA将原始的30维度特征压缩到2维度, 最后再用模型,LogisticRegression(是。原创 2024-06-04 15:52:30 · 279 阅读 · 0 评论 -
anaconda配置环境变量的方法
anaconda配置环境变量主要是将一下几个地址添加到环境变量的path中:X\Anaconda3X\Anaconda3\ScriptsX\Anaconda3\Library\binX\Anaconda3\Library\mingw-w64\binX\Anaconda3\Library\usr\bin具体操作可参考:https://blog.csdn.net/weixin_67806873/article/details/128218184原创 2023-04-05 22:22:42 · 174 阅读 · 0 评论 -
Python中的闭包,nonlocal以及global
通常情况下,我们在函数中引用变量,如果该变量在该函数的作用域内重新定义了,就会用重新定义的变量。如果在该函数作用域内没有重新定义,就会自从向上层函数找同名变量。按照1的规则程序一般不会出现问题,但是出现赋值和引用同时进行的语句时,例如x=x+y,python认为等号左边x是inside函数的作用域内重新定义的变量,等号右边x是outside函数的变量,这时就出现了矛盾,就报错了。为了处理这种情况,python出现了关键字nonlocal和global.原创 2023-04-03 18:39:31 · 364 阅读 · 0 评论 -
tensflow中的矩阵运算
在使用神经网络时,如果自定义损失函数就需要用tensflow中的矩阵运算来编写,用numpy是不可以的,因为tensflow的基本对象就是tensor,而numpy的处理对象是array不是tensor。原创 2022-12-15 19:55:40 · 121 阅读 · 0 评论 -
python中zipfile的用法
zipfile是一个用来压缩文件和解压缩文件的模块,它有两个常用的类,分别是ZipFile和ZipInfo。其中ZipFile是主要的类,用来创建和读取zip文件,而ZipInfo是存储的zip文件的每个文件的信息的。如果我们想要压缩或解压缩,首先要实例化一个 ZipFile 对象。ZipFile 的构造方法有两个参数,第一个参数是必选参数,接受一个字符串格式的压缩包名称,第二个参数为可选参数,表示打开模式,类似于文件操作,有r/w/a三种模式,分别代表读、写、添加,默认为r,即读模式。原创 2022-12-15 19:51:11 · 291 阅读 · 0 评论 -
python中地理数据处理的包geopandas
https://blog.csdn.net/m0_45083145/article/details/127162444?spm=1001.2101.3001.6650.1&utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7EAD_ESQUERY%7Eyljh-1-127162444-blog-123546462.pc_relevant_3mothn_strategy_and_data_recovery&depth_1-utm_sour转载 2022-12-15 18:16:29 · 119 阅读 · 0 评论 -
pandas的 移动窗口函数rolling
rolling_median 移动窗口的中位数。rolling_mean 移动窗口的均值。rolling_std 移动窗口的标准差。rolling_min 移动窗口的最小值。pandas中有很多以。转载 2022-12-15 17:41:54 · 155 阅读 · 0 评论 -
python中的zipfile用法
zipfile是一个用来压缩文件和解压缩文件的模块,它有两个常用的类,分别是ZipFile和ZipInfo。其中ZipFile是主要的类,用来创建和读取zip文件,而ZipInfo是存储的zip文件的每个文件的信息的。如果我们想要压缩或解压缩,首先要实例化一个ZipFile对象。ZipFile的构造方法有两个参数,第一个参数是必选参数,接受一个字符串格式的压缩包名称,第二个参数为可选参数,表示打开模式,类似于文件操作,有r/w/a三种模式,分别代表读、写、添加,默认为r,即读模式。......转载 2022-08-02 12:26:42 · 4972 阅读 · 1 评论 -
pandas中的文本包含函数.str.contains()
str.contains()会判断字符是否有包含关系,返回布尔序列,经常用在数据筛选中,它默认支持,如果不需要,可以关掉。参数na可以指定对空值的处理方式。转载 2022-07-30 12:58:39 · 10609 阅读 · 0 评论 -
给numpy.array增加维度
在一些数据结果的处理中,我们需要对numpy.array进行升维和缩维的处理。转载 2022-07-29 22:02:27 · 1288 阅读 · 0 评论 -
Jupyter notebook中添加R kernel
参考:https://blog.csdn.net/weixin_43906799/article/details/108460935转载 2022-03-13 12:48:23 · 439 阅读 · 0 评论 -
pandas中实现数据连接的函数(concat,append,join,merge)
可参考博客:https://blog.csdn.net/guofei_fly/article/details/85455813?utm_medium=distribute.pc_relevant.none-task-blog-2defaultBlogCommendFromMachineLearnPai2default-1.control&depth_1-utm_source=distribute.pc_relevant.none-task-blog-2defaultBlogCommendFromM转载 2021-11-04 21:34:47 · 157 阅读 · 0 评论 -
python中pandas对哑变量的处理
参考:https://www.cnblogs.com/Cheryol/p/13416008.html转载 2021-11-04 21:16:44 · 2791 阅读 · 0 评论 -
利用python实现Diebold-Mariano检验
文章目录DM检验的原理代码实现函数说明实例本文参考DM检验的原理给定两个预测的预测结果,我们希望比较他们的预测结果,以用于模型预测精度的比较。Diebold-Mariano检验本质是一个t检验,用于检验产生预测的两个损失序列的平均值是否相等。即,它是一系列损失差的零均值的t检验。原假设:DM统计量均值为0,即两个模型的预测效率一致。备择假设:两个模型的预测效率不一致。**注意:**在使用DM检验式时,其假设损失序列是平稳的。另外,DM检验在小样本数据时往往会拒绝零假设。对于小样本数据,推荐原创 2021-07-20 15:40:01 · 4868 阅读 · 4 评论 -
python中如何显示DataFrame的全部行列
在jupyter notebook或者pycharm中显示数据框时都被自动压缩了,如果想显示全部的行或列可以通过下面的方法解决:#显示所有列import pandsa as pdpd.set_option('display.max_columns', None)#显示所有行pd.set_option('display.max_rows', None)#设置value的显示长度为100,默认为50pd.set_option('max_colwidth',100)更多参数设置可以参考:h原创 2021-07-05 18:25:02 · 15063 阅读 · 2 评论 -
python中批量更新module的方法
方法1:使用 pip freeze如果是全量升级已安装的库,可以先用pip freeze 命令生成依赖文件,获取到已安装的库及其当前版本号:pip freeze > requirements.txt然后修改文件中的“==”为“>=”,接着执行:pip install -r requirements.txt --upgrade此方法比较适合于带有依赖文件的具体项目,可以针对该项目来升级所需的库。方法2:使用 pkg_resources 库pkg_resources 是 setup转载 2021-07-05 18:21:06 · 411 阅读 · 0 评论 -
Pycharm中出现ImportError:DLL load failed:找不到指定模块的解决方法
文章目录问题1:系统环境变量问题2:pycharm内部的环境变量问题3: pycharm编译环境的配置问题1:系统环境变量如果是安装Anaconda套装的话需要保证环境变量已经配置好,方法如下:我的电脑->属性->高级系统设置->环境变量->编辑,在path(用户变量和系统变量都可以)中添加下面三个路径X:\Anaconda3X:\Anaconda3\ScriptsX:\Anaconda3\Library\bin问题2:pycharm内部的环境变量方法:Run &原创 2021-07-05 18:15:27 · 4836 阅读 · 0 评论 -
notebook中的一些高频代码
让省略的数据框全部显示只需在显示数据框前加入下面的设置即可:pd.set_option('display.max_row',1000)pd.set_option('display.width',1000)pd.set_option('display.max_columns',1000)原创 2021-02-22 09:49:21 · 166 阅读 · 0 评论 -
在windows中安装tensorflow_gpu==1.15.0的流程
文章目录设置下载源利用conda创建python3.5的环境安装tensorflow_gpu1.15.0首先我们需要安装anaconda,这个需要读者自动解决。设置下载源在windows系统自己用户的目录下面新建一txt文件,更名为.condarc,写入以下信息channels: - defaultsshow_channel_urls: truedefault_channels: - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/m原创 2021-02-11 13:26:01 · 9280 阅读 · 3 评论 -
NVIDIA,CUDA,keras和TensorFlow之间的关系
文章目录NVIDIA的显卡驱动器与CUDAtensorflow各个版本需要的CUDA版本以及Cudnn的对应关系如何参考自己安装的CUDA的版本参考NVIDIA的显卡驱动程序和CUDA完全是两个不同的概念!CUDA是NVIDIA推出的用于自家GPU的并行计算框架,也就是说CUDA只能在NVIDIA的GPU上运行,而且只有当要解决的计算问题是可以大量并行计算的时候才能发挥CUDA的作用。NVIDIA的显卡驱动器与CUDANVIDIA的显卡驱动器与CUDA并不是一一对应的,CUDA本质上只是一个工具包而已原创 2021-02-11 10:37:31 · 1954 阅读 · 2 评论 -
conda中的常用命令
安装包conda install xxx //安装xxx包卸载包conda uninstall xxx //卸载xxx包搜索安装包anaconda search -t conda XXX //搜索安装包查看已安装的包conda list更换conda的下载源1.conda源更换为清华只需输入如下两行命令:conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/原创 2021-02-11 09:31:45 · 1193 阅读 · 1 评论 -
jupyter notebook经常自动中断是什么原因?
jupyter notebook经常运行一段时间后自动中断,不知道是什么原因。修改c.NotebookApp.shutdown_no_activity_timeout=0, 问题依然没有解决。求大神指点。原创 2020-11-15 21:53:52 · 7861 阅读 · 7 评论 -
python中subplots()的坐标轴索引错误
subplots作图中subplots(1,n)分配的坐标轴索引是一维的不能用二维方法引用,错例如下:正确的做法:原创 2020-09-17 11:51:18 · 207 阅读 · 1 评论 -
python中关于向量逻辑判断的坑
原创 2020-09-17 11:27:59 · 448 阅读 · 0 评论 -
numpy中实现展平和拼接的函数
flatten实现对数组或矩阵的展平flatten是numpy.ndarray.flatten的一个函数,即返回一个一维数组。flatten只能适用于numpy对象,即array或者mat,普通的list列表不适用!。a.flatten():a是个数组,a.flatten()就是把a降到一维,默认是按行的方向降 。a.flatten().A:a是个矩阵,降维后还是个矩阵,矩阵.A(等效于矩阵.getA())变成了数组。具体看下面的参考来源:https://www.cnblogs.com/yvon原创 2020-08-30 11:23:47 · 1879 阅读 · 0 评论 -
numpy中使用中易错点
查找一个list或者np.narray中的最小值索引可以使用np.argmin(list),但是list不能是迭代器原创 2020-07-16 10:18:05 · 249 阅读 · 0 评论 -
python中队列的用法Queue
Python中队列分为两类:1.线程Queue,也就是普通的Queue,导入方式:from queue import Queue2.进程Queue,在多线程中应用,导入方式:from multiprocessing import Queue普通Queue的种类又分为:FIFO(first in First Out),即先进先出队列。queue.Queue(maxsize=0)Queue提供了一个基本的FIFO容器,使用方法很简单,maxsize是个整数,指明了队列中能存放的数据个数的上限。一旦达转载 2020-06-15 19:04:55 · 1144 阅读 · 0 评论 -
python处理word的方法
安装python中处理word对象需要用到python-docx库,安装如下:pip install python-docx # 安装命令使用from docx import Documentfrom docx.shared import Inchesdocument = Document()document.add_heading('Document Title', 0) ...转载 2020-04-17 23:04:07 · 915 阅读 · 0 评论 -
python中re正则化的一些注意点
查找小括号在正则表达中查询小括号时需要加上中括号,例如:import restring='[(58)]'p=re.compile(r'[(][0-9]+[)]')re.findall(p,string)# ['(58)']re.sub(p,"*",string)# '[*]'正则表达可以参考:https://www.runoob.com/python/python-reg-...原创 2020-04-17 22:56:53 · 381 阅读 · 0 评论 -
python中的pypinyin库
python中的pypinyin库可以得到汉字的拼音安装方法:pip3 install pypinyin基本用法:lazy_pinyin('白日依山尽,黄河入海流')#['bai', 'ri', 'yi', 'shan', 'jin', ',', 'huang', 'he', 'ru', 'hai', 'liu']实现按拼音的字母表排序:a=list('白日依山尽,黄河入海流')...原创 2020-04-17 22:26:36 · 585 阅读 · 1 评论 -
python中实现简单抽样的函数
numpy库的实现简单随机抽样indexs=[numpy.random.randint(len(data)) for _ in range(k) ]data[indexs]#data需要是narray类型按不同概率抽样numpy.random.choice(a,size=None,replace=None,p=None)该函数可以根据不同的概率进行有放回和无放回抽样,这里的p需要满...转载 2020-04-12 11:48:23 · 3455 阅读 · 0 评论 -
pandas中的基本统计应用
pandas中进行统计计算的函数df.count() #非空元素计算df.min() #最小值df.max() #最大值df.idxmin() #最小值的位置,类似于R中的which.min函数df.idxmax() #最大值的位置,类似于R中的which.max函数df.quantile(0...原创 2020-03-26 18:26:49 · 441 阅读 · 0 评论 -
如何用pandas处理缺失值
对缺失值的判断缺失值在统计分析中经常被用到,在R语言中,is.na()、is.nan()和is.infinite()可分别用来识别缺失值、不可能值和无穷值。在python中空值为None, 在java中空值为null,但是到pandas中空值被显示为NaN。另外,pandas中使用df.isnull()或者df.isna()来判断是否为缺失值。将含有NaN的行或列去掉在pandas中可以...原创 2020-03-26 18:07:10 · 2311 阅读 · 0 评论 -
python使用中遇到的问题汇总
无法import自己写的库将自己写的库所在的路径加入系统路径中import sysmyaddress='文件所在的文件路径'sys.path.append(myaddress)原创 2020-03-17 09:56:29 · 332 阅读 · 1 评论 -
用python操作pdf的代码
将多个图片合并成一个pdf文件from fpdf import FPDFfrom PIL import Imageimport os#设置工作路径os.chdir('XXXX')def makePdf(pdfFileName, listPages): #获取图片的尺寸 cover = Image.open(listPages[0]) width, heigh...原创 2020-03-07 21:35:20 · 462 阅读 · 0 评论 -
python多线程与多进程的方法
获取当前线程import threading#返回当前线程t=threading.current_thread()print(t)#获得这个线程的名字t.getName()#判断线程是否存活t.is_alive()创建线程import threading#创建一个线程my_thread=threading.Thread()#创建一个名称为my_tread的线程my_t...原创 2020-02-14 22:02:44 · 1855 阅读 · 1 评论 -
python中的路径与文件处理
#coding=utf-8import os#当前print os.getcwd()print os.path.abspath(os.path.dirname(__file__))#上一级print os.path.abspath(os.path.dirname(os.path.dirname(__file__)))print os.path.abspath(os.path.join...原创 2020-02-11 22:23:15 · 342 阅读 · 0 评论 -
python中的优化函数
优化时遇到的问题问题1:IndexError: too many indices for array答:在网上查阅了一圈后,发现造成这个问题的原因有很多。而我是由于用scipy.optimize.minimize()做优化时,传入的参数x0 = theta的shape为矩阵,而官方要求是向量的形式!(哎,太粗心啦)问题2:ValueError: shapes (2,2) and (1,2) ...原创 2020-02-11 22:15:56 · 7469 阅读 · 1 评论 -
pycharm的使用技巧与遇到的问题
pycharm的console控制台无法使用https://blog.csdn.net/qq_43815011/article/details/89334600转载 2020-02-11 22:14:45 · 1002 阅读 · 1 评论 -
matplotlib作图基本代码
调整图例和坐标轴字体https://blog.csdn.net/Haiyang_Duan/article/details/79822087图例的位置https://blog.csdn.net/qq_28392015/article/details/83818673plt.legend(loc=1, bbox_to_anchor=(num1, num2))在图片中加入数学公式http...转载 2020-02-11 22:10:19 · 1112 阅读 · 0 评论