python concat_concat,数据挖掘_Python Dataframe合并问题,concat,数据挖掘,python,python3.x,pandas - phpStudy...

Python Dataframe合并问题

用Pandas读取一个七百万条记录的微博爬虫文件,大小约1G。直接读入内存不足,于是采用chunksize=100000来分批读取。每个chunk的数据处理后得到count长这样:

daysCount tweetsSum

userID

1294588034 5 305

2277435630 4 284

1985258823 6 265

1886370740 7 265

... ... ...

之后我尝试把这些dataframe合并,代码如下:

count_list=[]

for chunk in data:

...

count_list.append(count)

total_count = pd.concat(count_list, axis=0)

print(total_count.sort_value(by=['tweetsSum'],ascending=False))

结果发现汇总后的数据总是小于真正的数据量,不管是daysCount还是tweetsSum都是。而且调高chunksize,这两个值也会提高。

于是我猜想在concat的时候,遇到userID相同的,它只会取daysCount和tweetsSum的最大值,而不是值相加。

如果是这样的问题的话,那么该怎么合并dataframe,能让碰到userID相同的时候,让daysCount和tweetsSum相加呢?

相关阅读:

vue v-for 为元素添加点击事件的时候怎么才能处理当前dom元素?

Echarts雷达图可以添加顶点么?

求教前端开发如何兼容safari

如何在linux中查找指定列表中的文件

python变量起别名问题

使用react router后怎样将父组件的数据传递到子组件中

渲染 mysql查询到的数据,中文乱码怎么解决?

react 异步怎么返回 Immutable 数据?

Android 的UP事件和最后一个MOVE事件所拿到的点是相同的

V-model绑定数组的时候为啥会不能更新?

for循环中异步转同步如何改造?

onbeforeunload事件粗发问题?

gitbook生成的图书中,表格内不能使用markdown语法?

如何用纯CSS将图片填满div,自适应容器大小,已有两个不太完善的方案

Git 怎么添加多个远程仓库呢?

swift closure 参数的写法,不太明白?

react中import normalize.css报错

node_modules不上传服务器导致网页无法打开,提示找不到对应的模块

下面加载的都是哪的文件呀?

angular里的ui-view里,获取当前页面的状态参数用$state.params,在vue里类似的语法是什么呢?

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值