Python数据分析技巧
o0xgw0o
这个作者很懒,什么都没留下…
展开
-
算法模型保存之joblib、pickle和dill使用
使用joblib、pickle和dill进行数据挖掘算法模型的保存与加载原创 2022-11-08 17:13:42 · 1900 阅读 · 1 评论 -
matplotlib画图时只需保存图片,无需图片展示
matplotlib只保存图片而不显示图片原创 2022-10-19 14:04:46 · 2239 阅读 · 0 评论 -
Python动态获取token值并获取数据
可根据需求动态获取token值,跟依据token值获取数据原创 2022-08-18 10:55:51 · 2009 阅读 · 0 评论 -
不平衡数据分类算法介绍与比较
介绍在数据挖掘中,经常会存在不平衡数据的分类问题,比如在异常监控预测中,由于异常就大多数情况下都不会出现,因此想要达到良好的识别效果普通的分类算法还远远不够,这里介绍几种处理不平衡数据的常用方法及对比。符号表示记多数类的样本集合为L,少数类的样本集合为S。用r=|S|/|L|表示少数类与多数类的比例基准我们先用一个逻辑斯谛回归作为该实验的基准:转载 2017-09-10 15:23:41 · 385 阅读 · 0 评论 -
Python读取大容量的csv文件
python按行遍历一个大文件:with open('filename') as file: for line in file: do_things(line)结合下文的block,读几行是没压力了,但存成csv的时候各种奇葩问题,什么str和byte的编码问题啦,什么csv一打开是各种奇葩的整数啦……如何用python处理非常大的csv和x原创 2017-07-26 16:41:07 · 11537 阅读 · 0 评论 -
常用Scikit-learn特征选择方法
特征选择(排序)对于数据科学家、机器学习从业者来说非常重要。好的特征选择能够提升模型的性能,更能帮助我们理解数据的特点、底层结构,这对进一步改善模型、算法都有着重要作用。特征选择主要有两个功能:减少特征数量、降维,使模型泛化能力更强,减少过拟合增强对特征和特征值之间的理解拿到数据集,一个特征选择方法,往往很难同时完成这两个目的。通常情况下,我们经常不管三七二十一,选择一种自原创 2017-07-26 16:06:45 · 636 阅读 · 0 评论 -
命令行更新scikit-learn
使用pip命令更新库pip install --upgrade 库名 比如更新scikit-learn包pip install --upgrade scikit-learnpip更新Python -m pip install --upgrade pip原创 2017-07-26 12:27:41 · 21074 阅读 · 2 评论 -
pandas数据合并
pandas数据合并转载 2017-07-24 13:28:09 · 442 阅读 · 0 评论 -
特征共线性问题分析
1.概念:多重共线性是指自变量之间存在一定程度的线性相关,会给变量对模型的贡献性带来影响。即若有两个变量存在共线性,在相互作用计算后,其一的变量的影响会相对减弱,而另一个变量的作用却会相对增强。2.产生原因:(1)没有足够多的样本数据(2)选取的样本之间本身就客观存在共线性关系(3)其他因素导致:数据采集所采用的方法,模型的设定,一个过度决定的模型多数研究者认为特征共线性本原创 2017-07-31 13:51:36 · 9736 阅读 · 0 评论 -
Python数据预处理常用函数
1.append( )函数 定义:用于向列表末尾添加新的对象,对象属性任意语法:list.append(object)实例:alist=['ab','cd','ef']alist.append(2017)print "Updated list :",alist结果显示:Updated list :['ab','cd','ef',2017]2.extend()函数定义:用于原创 2017-07-21 15:12:32 · 595 阅读 · 0 评论 -
SQL文件写入MySQL问题
sql文件写入MySQL问题集锦原创 2017-06-30 09:38:32 · 596 阅读 · 0 评论