数据预处理
爱吃辣条的猫
这个作者很懒,什么都没留下…
展开
-
对阿里离线赛的数据用python进行简单的预处理
数据预处理对阿里离线赛的数据用python进行预处理, 参考文章http://www.wyblog.cn/2016/12/16/%e5%a4%a9%e6%b1%a0%e4%bd%93%e9%aa%8c%e4%ba%8c-%e6%96%b0%e4%ba%ba%e7%a6%bb%e7%ba%bf%e8%b5%9b%e6%95%b0%e6%8d%ae%e5%8f%af%e8%a7%86%e5%8c%9转载 2017-04-25 11:19:18 · 673 阅读 · 0 评论 -
关系型数据库数据DataFream行列转置pivot
参考【pandas】[5] 数据行列转置,数据透视(stack,unstack,pviot,pviot_table)最近遇到一个难题,pandas里的DataFream如何将行与列进行转置?自己琢磨了好久,试图一行行循环进行操作,但是途中发现了参考文章,才发现原来有这么一个函数pivot,一行代码就可以搞定result.head() v...原创 2018-04-11 18:32:37 · 434 阅读 · 0 评论 -
DataFream里多列相同时对不同列进行操作groupby与agg
参考[python:怎样合并文档中有重复部分的行?]最近数据预处理中遇到dataFream里有多列相同但有一列或多列不同,为了使得相同的列能确定一行,想要根据相同列合并不同列,最后发现先使用goupby分组,再使用agg函数和lambda可以解决这个问题,所以记录以下。下面是具体的问题:vt_count=data.groupby(['vid','table_id'],as_index=False...原创 2018-04-11 18:58:58 · 1888 阅读 · 0 评论 -
文本处理(一)全角转半角及正则匹配
最近遇到一些情况需要对文本进行预处理,目的是从文本中提取特征。文本内容是不同病人的脾脏B超体检结果。内容格式如下:其中有一部分内容还含有数字,例如这样: df_with_num=df[df['0116'].str.contains(r"\d")]df_with_num.head()Out[82]: vid \67 ...原创 2018-04-30 19:17:50 · 5831 阅读 · 0 评论 -
文本处理(二)词频统计,jieba分词,词性标注,snownlp情感分析
这一篇接着上一篇处理后的数据进行操作,按照(一)中的步骤,这事应该将文本数据每一行中的高频的正面词去掉,因为多数是描述身体健康的短句,只有少数是描述脾脏检查异常的,所以尝试删除掉描述身体健康的短句,只留下少数检查异常的数据,对异常的检查数据进行特征提取,这是思路。所以这一篇目的是找到并且去除描述正常情况的短句。##对a和d进行分析后补充,这里是经过一次试错之后才发现开头应该把这些作为词组保留并添加...原创 2018-05-02 22:19:40 · 8702 阅读 · 0 评论