数据处理篇
文章平均质量分 58
gao_vip
这个作者很懒,什么都没留下…
展开
-
Python 批量修改文件名
【代码】Python 批量修改文件名。原创 2023-12-01 22:15:00 · 211 阅读 · 0 评论 -
数据不平衡处理方式之过采样和欠采样(Python代码)
在进行数据分析建模的过程中,数据不均衡是非常常见的问题,一般可以用过采样,欠采样,过采样+欠采样等发放处理。如SMOTE算法,通过插值生成合成样本,非直接对少数类进行重采样,从而使得少数类样本的特征空间得到扩展,有助于模型更好地探索和学习少数类的特征,提高模型的性能。如随机欠采样,随机从多数类样本中抽取一部分数据进行删除,随机欠采样有一个很大的缺点是未考虑样本的分布情况,而采样过程又具有很大的随机性,可能会误删多数类样本中一些重要的信息。样本中冗余特征的数量,这些特征是从有用特征中随机组合而成的。原创 2023-06-26 23:15:00 · 5775 阅读 · 2 评论 -
Python常用函数笔记汇总1
cat1 = pd.qcut(data,[0,0.1,0.5,0.9,1.],precision=2) #自定义分位数。df.take(np.random.permutation(len(df))[:cnt]) #从df中随机抽取70%data[(np.abs(data)>3).any(1)] #全部abs大于3的行和列,以下两种不可取。df.take(np.random.permutation(len(df))[:3]) #从5中随机取3个。原创 2019-12-04 18:08:57 · 944 阅读 · 1 评论 -
Python常用函数笔记汇总2
添加参数:–default-timeout=100,执行命令为:pip --default-timeout=100 install jieba。datetime可以查看:天数(day),小时数(hour),星期几(weekday())等。timedelta可以查看:天数(days),秒数 (seconds)等。原因分析:连接服务器,网速慢,文件大,导致下载连接超时,无法完成下载。每个类都有一些方法和属性可以查看具体的值.c.导入第三方包,利用包的内置方法。1.分组汇总groupby。原创 2022-12-29 21:00:00 · 812 阅读 · 1 评论 -
Python从url中获取JSON数据并解析
1、对象:大括号 {} 保存的对象是一个无序的名称/值对集合。一个对象以左括号 { 开始, 右括号 } 结束。每个"键"后跟一个冒号 :,名称/值对使用逗号 , 分隔。2、数组:中括号 [] 保存的数组是值(value)的有序集合。一个数组以左中括号 [ 开始, 右中括号 ] 结束,值之间使用逗号 , 分隔。JSON 语法是 JavaScript 对象表示语法的子集。原创 2022-12-29 21:00:00 · 1760 阅读 · 0 评论 -
Python写入和读取到txt、csv、excel和json文件
【代码】Python写入和读取到txt、csv、excel和json文件。原创 2022-12-28 23:30:00 · 467 阅读 · 0 评论 -
数据预处理-格式-缺失值-异常值等-附py代码
数据预处理是进行数据分析、机器学习的必不可少的步骤,其中,格式往往也是多种多样的,需要具体情况具体分析,本文不做详细探讨,缺失值缺失的原因也有许多种,对应的也有很多种方法进行处理,本文仅仅用均值、中位数填补缺失值,用盖帽法处理异常值。代码示例class cleanDataset(): def __init__(self): pass def clean_format(self, x): x = str(x).strip().strip(' ') .原创 2022-10-15 21:15:00 · 438 阅读 · 0 评论 -
python常见的数据预处理的方法preprocessing模块
利用python进行常见的数据预处理,主要是通过sklearn的preprocessing模块以及自写的方法来介绍加载包及导入数据# -*- coding:utf-8 -*-import mathimport numpy as npfrom sklearn import datasetsfrom sklearn import preprocessingiris = datasets.load_iris()iris_X = iris.data[:4]iris_y = iris.target原创 2020-07-31 23:30:55 · 9063 阅读 · 0 评论 -
python连接MySQL数据库并对数据类型进行转换
本文利用pymysql模块连接MySQL数据库,并汇总查询所需数据,同时对数据进行类型转换。# -*- conding:utf-8 -*-import pymysqldef mysql_func(sql): db = pymysql.connect(host="110.109.200.***",port=3306, user="lilei",passwd= "lileicode",database="mydatabase") # 使用 cursor() 方法创建一个游标对象 cursor cu原创 2020-05-26 17:08:01 · 1526 阅读 · 0 评论 -
python用workbook类方法带格式保存excel
主要步骤:1.用add_worksheet添加一个新的工作表,sheetname为工作表名称2.用add_format在工作表中创建一个新的格式对象来格式化单元格3.用set_row和set_column方法设置sheet表单元格的行高和列宽4.用write方法将普通数据写入单元格中本例是直接将现有数据存到excel为例的def change_format(self,df, writer, Item): """ 修改dataframe的数据格式,如小数转为%,日期改成%Y-%m-%d原创 2020-05-25 11:38:41 · 8263 阅读 · 0 评论 -
随机变量-离散-连续-假设检验方法
一组随机样本数据需要进行分析处理时,往往需要用到假设检验,对于离散变量discrete多用卡方检验,连续变量continuous用t检验或wilcoxon秩序和检验,具体的的使用场景如下离散变量-卡方检验-适用条件四格表:所有的理论数T≥5并且总样本量n≥40,用卡方进行检验理论数T<5但T≥1并且n≥40,用连续性校正的卡方进行检验有理论数T<1或n<40,用Fisher’s检验...原创 2020-04-10 18:15:01 · 3949 阅读 · 0 评论 -
数据筛选特征方法-决策树法
决策树类的算法一般都能用来计算特征重要性,通过决策树分类器的特征重要性进行评估。常用的决策树分类器有:DecisionTreeClassifier,RandomForestClassifier,ExtraTreesClassifier,GradientBoostingClassifier,XGBClassifier等。但每个分类器下的参数可能略有不同,为了有更好的效果,尽量优化下参数取值。本...原创 2020-03-27 19:19:25 · 3440 阅读 · 0 评论 -
数据筛选特征方法-卡方检验法
卡方检验作为非参数的方法,主要是检验自变量对因变量的线性相关程度,常用于特征变量的筛选。一般sklearn包中的函数SelectKBest和SelectPercentile即可实现。本文以SelectPercentile为例# -*- coding:utf-8 -*-import numpy as npimport pandas as pdfrom sklearn.featu...原创 2020-04-03 20:58:54 · 2512 阅读 · 2 评论 -
数据筛选特征方法-方差法
在数理统计中,方差是测算随机变量离散趋势最重要、最常用的指标,方差是各变量值与其均值离差平方的平均数,它是测算数值型数据离散程度的最重要的方法。当数据分布比较集中时,各个数据与平均数的差的平方和较小,当数据分布比较分散(即数据在平均数附近波动较大)时,各个数据与平均数的差的平方和较大,方差就较大。因此方差越大,数据的波动越大;方差越小,数据的波动就越小。sklearn库中的用于特征选择的函数,...原创 2020-03-25 18:15:46 · 8000 阅读 · 1 评论 -
np.random.normal()正态分布
np.random.normal()正态分布numpy中高斯分布的概率密度函数numpy.random.normal(loc=0.0, scale=1.0, size=None)参数的意义为:loc:float 概率分布的均值,对应着整个分布的中心centerscale:float 概率分布的标准差,对应于分布的宽度,scale越大越矮胖,scale越小,越瘦高size:int or...原创 2019-12-15 22:07:56 · 1957 阅读 · 0 评论 -
mysql笛卡尔积排序
create table tbl (id VARCHAR(32), col int);DROP TABLE tb1;insert into tbl values ('a',56), ('a',46), ('a',35), ('b',68), ('b',33), ('b',92);SELECT * FROM tbl;SELECT ...原创 2019-12-09 14:03:04 · 411 阅读 · 0 评论