Python借助smote实现不均衡样本数据的上采样和下采样,并可视化展示样本分布

smote是一个很有用的用于样本生成的方法,在Python中已经有了现成的实现可以直接调用,对于安装可以直接使用命令:pip install imblearn    由于imblearn包比较大40多MB,需要耐心等一会才可以,安装成功就可以使用了    今天主要是借助于样本生成的方法,来对原始不...

2018-04-19 11:36:02

阅读数:56

评论数:0

Python实现样本类别的可视化(绘制饼图,展示各类别样本的比例)

在适应机器学习等模型来进行实验的时候,我们往往事先需要对原始数据样本的分布有一定的了解,初步了解我们的样本数据一共有多少类别,各个类别中样本数据的比例是否均衡,因为对于不均衡的数据比例会采用不同的模型,如:对于正负样本数据失衡的情况我们往往会采用异常点检测等方法,而不是SVM这类常规的检测模型。 ...

2018-04-19 11:11:28

阅读数:42

评论数:0

Python读取csv数据文件,并按照指定比例划分为机器学习使用的训练集和测试集

    在使用机器学习等算法模型的时候,往往都会需要将数据加载到内存中才能够使用,对于原始数据我们往往需要按照一定的数据划分比例划分为测试集和训练集,如果想直接使用交叉验证来进行评估的话则不需要数据划分这个步骤。    正好最近在做这方面的东西,写一个简单的小函数实现数据的读取与划分功能,下面是具...

2018-04-19 10:59:15

阅读数:63

评论数:0

Keras搭建深度学习模型,指定使用GPU来进行模型的训练和测试

    今天使用到了GPU来加速计算,那种感觉简直就是一飞冲天了,临近毕业季,大家都在做实验,服务器早已是不堪重负了,我们屋的服务器一堆人再用,卡到爆炸,训练一个模型粗略计算一下迭代100次就需要3、4天的时间,得不偿失,正好隔壁有一台闲置的GPU深度学习服务器,决定上手搞一搞。    深度学习我...

2018-04-10 20:25:30

阅读数:69

评论数:0

Python实现将一个长度为n的列表划分 ,每个子列表中包含m个元素

今天写一个任务调度分发模块的时候遇上一个需求就是,需要将输入的任务列表分割进而创建子任务列表,每个子任务数量相同,这就是一个均分的问题,很简单,不多说,使用Python来做很简单,下面是两种做法的简单实现: def test1(one_data_list,colnum=3): ''' ...

2018-04-04 17:40:07

阅读数:67

评论数:0

nohup命令简单的使用

     nohup命令是linux中比较常用的一个命令,对于我们这些整天需要不停地使用服务器做实验的人来说,nohup更是必不可少的,简单的说:nohup命令就是在服务器端提供了一种不停机执行的命令服务。例如:执行一个Python编写的脚本文件可以使用命令nohup python test.py...

2018-04-01 15:14:20

阅读数:48

评论数:0

python基于二维数据矩阵随机生成图像文件

    今天,遇上一个需求就是根据数据生成图像,当然不仅仅是这么简单,但是突然觉得很好玩,就简单实验了一下,随机的生成二维的数据矩阵,然后使用这个随机矩阵的数据来生成随机的图像,仅仅是好玩,下面是具体的实现:def random_generate_pic(num=50): ''' ...

2018-03-27 21:59:16

阅读数:78

评论数:0

Python服务器管理模块psutil学习使用

    今天无意间发现一个好玩的模块psutil,对于服务器信息的查询和管理是很方便的,个人觉得很有意思就去官网的文档摘抄了几个例子学习一下,这里是官方文档的链接。Example usages    下面是我简单的使用,仅仅是参考学习,了解一下,日后还需进一步学习:#!usr/bin/env py...

2018-03-21 16:00:44

阅读数:85

评论数:0

Python使用numpy模块实现矩阵和列表的连接操作

    Numpy模块被广泛用于科学和数值计算,自然有它的强大之处,之前对于特征处理中需要进行数据列表或者矩阵拼接的时候都是自己写的函数来完成的,今天发现一个好玩的函数,不仅好玩,关键性能强大,那就是Numpy模块自带的矩阵、列表连接函数,实践一下。#!usr/bin/env python #en...

2018-03-17 21:29:06

阅读数:96

评论数:0

Python中的X[:,0]、X[:,1]、X[:,:,0]、X[:,:,1]、X[:,m:n]和X[:,:,m:n]

Python中对于数组和列表进行切片操作是很频繁的,当然对于切片的操作可供我们直接使用的函数也是很遍历了,我们今天主要简单总结一下常用集中索引化方式,希望对大家有所帮助吧。     对于列表的切片比较简单,在我之前的博客里面有详细的讲解,需要的话可以去看看,这里就不再详细说了,今天主要是讲解对于...

2018-03-17 17:36:03

阅读数:94

评论数:0

Python Numpy模块函数np.c_和np.r_学习使用

    今天遇上一个矩阵的小问题需要操作数据矩阵,本来想自己写函数的,可是查了一下发现居然还真的有现成的这样的函数可以直接使用,就省事了好多了,简单记录一下。def test(): ''' numpy函数np.c_和np.r_学习使用 ''' data_list1=...

2018-03-13 22:45:16

阅读数:107

评论数:0

Python绘制简单漂亮好玩的散点图

     Python中有很多封装好的包可以直接使用,最近正好用到了可视化的展示模块matplotlib,感觉虽然API学起来比较复杂,但是看到画出来的图片那么漂亮当然还是心满意足的了,最近几天学习使用了柱状图、直方图、三维立体图、流形图等等,接下来会找时间分别记录一下,当做是自己学习的一个记录也...

2018-03-13 16:12:32

阅读数:119

评论数:0

机器学习模型跨语言平台使用的利器使用---------sklearn2pmml

在实际中会遇到机器学习模型需要在不同语言中共享的问题,比如我使用了Python训练好了随机森林模型,但是同事在Hadoop环境中想使用到该模型,这就产生了一定的冲突,为了解决这一问题诞生了跨平台利器-----sklearn2pmml,说道这里首先就需要了解一下PMML了。      那么什么是P...

2018-03-09 18:50:06

阅读数:367

评论数:0

毕设中期答辩结束了

仔细数来其实已经好几没有去好好写博客了,中期的压力的确很大, 虽说学长学姐说的很风轻云淡一样,但是说实话自己作为一个应届的毕业生,心里对中期的敬畏还是很高的,毕竟宣告结束一半时间了,不,应该说是一大半时间了,因为中期之后真正拿来做实验的并没有剩下很多的时间,写论文,该论文还有会有很多很多的事情在等...

2018-03-08 17:49:31

阅读数:385

评论数:0

Python绘制散点对比图

由于在进行数据分析的时候,往往需要可视化的帮助才能 更方便的发现样本数据的特点,今天我们需要展示正负类数据做可视化分析简单测试一下 #!usr/bin/env python #encoding:utf-8 from __future__ import division ''' __Au...

2018-02-04 15:33:42

阅读数:188

评论数:0

R语言各个包里面的数据集

转自:这里 Package  Item  Title  csv  doc datasets AirPassengers Monthly Airline Passenger Numbers 1949-1960 CSV DOC datasets...

2018-01-04 17:17:39

阅读数:590

评论数:0

one_hot编码学习与实践

one_hot编码之前也接触过但是并没有真正去了解过,正好现在遇上一个问题就是我有一堆人的职业,我需要将这些职业向量化处理,最简单粗暴没理由的做法就是按照顺序对所有的职业进行数值的编码,数值编码的值就是对应职业的特征值,这样其实是很不合理的,因为职业并不是一个连续的变量,赋予其连续的数值本身就是没...

2018-01-03 20:34:55

阅读数:200

评论数:0

Python使用matplotlib模块绘制多条折线图、散点图

今天想直观的展示一下数据就用到了matplotlib模块,之前都是一张图只有一条曲线,现在想同一个图片上绘制多条曲线来对比,实现很简单,具体如下:#!usr/bin/env python #encoding:utf-8 ''' __Author__:沂水寒城 功能:折线图、散点图测试 ''' ...

2018-01-01 21:21:32

阅读数:1490

评论数:0

Python使用datetime模块进行简单的日期换算与计算

datetime模块是一个很强大的模块,使用也很方便,在这里简单使用该模块计算指定日期之间的间隔天数已经日期后移或者前推指定周数或者天数的新日期,下面是具体的实现,只是为了学习使用,欢迎交流: #!usr/bin/env python #encoding:utf-8 ''' __Aut...

2017-12-18 22:01:00

阅读数:212

评论数:0

Python简单的小实验输出对应车站的中文简写(主要是为了解决汉字编码问题)

今天在写代码的时候遇上了中文编码报错的问题,ASCII和Unicode转化的问题,报错如下: UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(128) ...

2017-12-13 21:10:47

阅读数:234

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭