自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 MacOS系统从python输出的并保存的csv文件,用excel打开出现:此文本文件无法放置在一个工作表的问题

问题描述:我在使用python对数据进行分类时,把我需要的数据导出为csv格式,想用excel查看这些内容时,遇到了如下图的一个问题。解决方案:在网上查看了不少解决方案,发现问题的本质是因为,换行符的问题。在Mac中,换行符是LF,而在windows中,换行符是CRLF,而excel默认的换行符应该也是CRLF,所以只需要把我的csv文件的换行符改成CRLF就行。我用的是VScode打开csv。右下角有个换行符,图片上的是我已经改过的,点击一下会有CRLF和LF,改一下保存即可,之后在exce

2020-06-25 10:37:04 1121

原创 csv中文文本分类和导出需要的行

背景:先介绍我的工作,我需要在几个csv文件中筛选出我需要的一些数据,一条一条的筛选肯定太慢了。我采用的方法思路也比较简单,首先手动选一些正确的数据作为训练集,提取出关键词,然后对关键词进行添加或删除,然后让所有的数据与这些关键词取交集,当有至少3个元素在交集中,我就认为这是我需要的数据,并把它读出。关键词的提取:我的数据由于都是中文的,所以要用到一些中文的库,找关键词第一步就是先对数据进行简化。简化的意思就是把一些不相关的词去掉,比如说标点符号等等。这学术化的叫法是预处理,然后对简化后的文本进行分词

2020-06-22 18:48:02 637

原创 CSV文件太大打不开进行分割、和打开乱码问题

CSV文件打开以及乱码问题今天要使用一个csv文件,但是有8个G,excel打不开,用Python的pandas也读不了,可能是我电脑配置太落后,也可能是数据实在太大了。解决办法:首先处理打不开的问题,我们可以把大的csv分割成若干小文件,使用文件分割器,按10000行一个文件分割,分割器在F:\新建文件夹\csv文件分割器\split.exe,稍等一段时间就行。我还试过另一个分割器,但是不行...

2020-05-04 21:46:16 9985

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除