本人专挑数据挖掘、机器学习和 NLP 类型的题目做,有兴趣也可以逛逛我的数据挖掘竞赛专栏。
本人不会回访,不互关,不互吹,以及谢绝诸如此类事
思路
https://blog.csdn.net/weixin_42141390/article/details/116423465
数据读取
原本这里采用 dask 库读取 csv 文件。因为 dask 库的好处是:1、分块;2、并行化计算
然而:我先尝试了用 pandas 读取数据,读入整个 CSV 占用内存 76 MB。算是比较小的了。鉴于其可直接放入内存之中,因此就不需要分块了,因为反而会因为与硬盘交互,消耗 CPU 资源。
经过测试ÿ