大数据实战：淘宝用户画像词频统计

数据科学与大数据

已于 2024-07-14 10:21:11 修改

阅读量457

点赞数 12

分类专栏：大数据实战文章标签：大数据 linux hadoop mapreduce intellij-idea

于 2024-07-13 23:59:01 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_58064058/article/details/140408738

版权

相关软件安装包及其版本说明如表所示。

软件	版本	安装包称
Oracle VM VirtualBox	6.1.48
ubuntu	24.04	ubuntu-24.04-desktop-amd64.iso
hadoop	3.3.5	hadoop-3.3.5.tar.gz
JDK	JDK1.8

1、数据集

来源：数据来源于阿里云天池:https://tianchi.aliyun.com/dataset/46

2、数据清洗

# 导入pandas库，用于数据处理
import pandas as pd

# 从csv文件中读取数据，命名为df
# 加载数据
df = pd.read_csv('taobao.csv')
# 打印数据框架的信息，包括列名、数据类型和非空值数量
# 检查数据信息，包括每列的非空值数量和数据类型
print(df.info())
# 计算每列的缺失值数量并打印
# 检查每列的缺失值数量
print(df.

最低0.47元/天解锁文章

数据科学与大数据

博客等级

码龄4年

13
原创

103
点赞

229
收藏

77
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

最新评论

云计算使用centos7 packstack安装OpenStack保姆级教程
2301_77687964: ERROR : Error appeared during Puppet run: 192.168.65.128_controller.pp Error: Systemd start for rabbitmq-server failed! You will find full trace in log /var/tmp/packstack/20240326-165240-GGj2dE/manifests/192.168.65.128_controller.pp.log 你好老哥，出现这个错误，请问咋解决啊，谢谢！安装openstack时候出错了
VS2022配置MPI环境
Enemyforlife: 请问一下运行的时候为什么会出现这种情况呢？ mpifc.bat for the Intel(R) MPI Library 2021.7 for Windows* Copyright Intel Corporation.
云计算使用centos7 packstack安装OpenStack保姆级教程
数据科学与大数据: 上述只是安装这个服务
云计算使用centos7 packstack安装OpenStack保姆级教程
SnowPine3: 请问这个不应该涉及到两个结点吗？控制节点和计算节点？

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。