![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据处理
_illusion_
知乎主页:https://www.zhihu.com/people/illusions-29/posts
展开
-
pandas to_excel如何突破65535的长度限制?
问题描述有时候,我们对数据表做了groupby、set_index设置多级目录后,就会想把DataFrame的格式导出成Excel格式,而非csv格式。因为导出成csv格式,可能多级index的格式就会消失,当你要输出个漂亮的格式给人看的时候,csv显然是不如excel好看的。不过,excel格式还有个蛋疼的缺点,那就是单个excel文件输出长度65535的限制。假如你的excel文件超长了,你大概会得到以下报错:~/anaconda3/lib/python3.6/site-packages/原创 2021-08-27 11:33:00 · 4298 阅读 · 4 评论 -
Linux下使用LibreOffice+python将doc/docx/wps格式的文档转成html/txt/docx等格式
Linux下的word文档格式转换工具最近接到一个需求,要将所有不同格式的文档(包括.doc/.docx/.wps)转成统一格式,如都转为.docx,或直接转为.html 或.txt。经调研后,发现有这样几款工具:win32compython-docxpydocx…可能还有,我就不再赘述了。经过全面调研,我发现这些工具存在这样的问题——Python相关工具要么无法处理.doc(只能处理.docx),要么要求必须在windows环境下使用(如win32com)。当前大家的生产环境一般都是Linu原创 2020-07-29 11:21:22 · 9849 阅读 · 7 评论 -
处理数据时,对数据取对数的意义
平时在一些数据处理中,经常会把原始数据取对数后进一步处理。之所以这样做是基于对数函数在其定义域内是单调增函数,取对数后不会改变数据的相对关系,取对数作用主要有:1. 缩小数据的绝对数值,方便计算。例如,每个数据项的值都很大,许多这样的值进行计算可能对超过常用数据类型的取值范围,这时取对数,就把数值缩小了,例如TF-IDF计算时,由于在大规模语料库中,很多词的频率是非常大的数字。 ...转载 2018-09-14 10:01:00 · 33186 阅读 · 5 评论 -
sklearn.preprocessing之StandardScaler与Normalizer
一、标准化(Z-Score),或者去除均值和方差缩放公式为:(X-mean)/std 计算时对每个属性/每列分别进行。将数据按期属性(按列进行)减去其均值,并处以其方差。得到的结果是,对于每个属性/每列来说所有数据都聚集在0附近,方差为1。实现时,有两种不同的方式:使用sklearn.preprocessing.scale()函数,可以直接将给定数据进行标准化。123456789101...转载 2018-09-28 01:43:43 · 2011 阅读 · 0 评论 -
pandas日常使用笔记:iterrows()、mode()需要注意的东西
1.iterrows()、iteritems():此方法用于对DataFrame进行行或者列的迭代获取 经过此方法所得到的DataFrame行或者列,你永远都不要去对它进行改动。因为迭代所得只是这个数据对象的复制本,你对它进行何种改动都无济于事 2.mode():此方法用于获得该列“众数”,即本特征下取值最多的那个特征值(因而可能不止一个结果) 如果你想用mode()函数的计算结...原创 2018-09-28 14:10:39 · 10539 阅读 · 2 评论 -
pandas DataFrame取数据以及pandas groupby用法一览
DataFrame数据取法:https://fishc.com.cn/thread-79821-1-1.html groupby用法:https://blog.csdn.net/Leonis_v/article/details/51832916 随用随查~原创 2018-12-29 17:22:16 · 2635 阅读 · 0 评论 -
为何将连续变量离散化,就可以增加模型的“非线性能力”?
将连续变量离散化,可以增加模型的“非线性能力”这句话我在不同的地方看到不少人说过,但这句话总是让我感到困惑——知其然不知其所以然的困惑。今天我就从一个小白的角度尝试着解释一下这句话——首先,何为“非线性能力”要搞清:非线性能力,指的就是model在对“线性不可分”数据集进行分类时所展现的能力。我们所熟知的“硬间隔SVM”就是线性model,有人也把LR称作线性model。但我们又可以通...原创 2019-06-18 15:29:23 · 2540 阅读 · 0 评论 -
数据变换的小技巧(经常更新)
引子作为一个小白数据挖掘工程师,如何处理分布不均匀的数据是我们遇到的第一个难题,也是工作中最常见的问题之一。何谓数据分布不均匀?比如用户做一道题的做题时间长度(简称做题时长),在理想状态下应该是正态分布的,即大部分人做题时长在一个合理位置(如3~5分钟),做题时间很长or很短的人应该很少。但实际情况总是这样的吗?非也。由于不论是做题时长、房价还是人的收入,这些变量总有一个下限,却没有上限。...原创 2019-07-11 16:44:57 · 1143 阅读 · 0 评论