进入大数据的世界

RlTED

已于 2024-07-07 01:12:27 修改

阅读量373

点赞数 4

分类专栏：学习感悟，学习规划文章标签：大数据

于 2024-07-07 01:11:36 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/nwbfygsjdr/article/details/140238400

版权

学习感悟，学习规划专栏收录该内容

1 篇文章 0 订阅

订阅专栏

大数据的几个大模块

这一篇，是我对大数据学习的一点点规划。

本人如今是准大三学生开始写这个文章，可能有点晚，但我相信我可以努力达到我的目标。

大数据分为几个部分：

数据挖掘：这一部分其实就是去寻找我们需要的数据源。

数据预处理：对异常的数据进行一些手段，让他价值损失尽可能少，有参考意义。

数据存储：更多的是介绍每个数据库的使用方法，当然这个其实可以深学，学习前人的思想可以让我们更快的进步。

数据的计算和分析：这是我希望努力的方向，大数据专业不代表不需要学习数学，相反，发现数据的规律，需要很强大的数学逻辑。这是我薄弱的部分，也是我需要去捡前面掉落的数学知识的部分。

数据可视化：好看的展示给用户

从爬虫入门大数据

这一部分其实要学习需要我们有很系统的前端网页知识他涉及的数理逻辑比较少，更多的是去考虑需要找到什么信息，怎么找，

为什么我会以选择爬虫入门呢？

学习的内容是对之前内容的复习加学习一部分新内容，如爬取网页，我需要复习html、css、mysql、python等等的知识储备。然后web知识、爬虫设计、正则表达式等这些新知识点的学习，这里会学习一部分非关系数据库的应用，这也相当于为之后的数据存储和数据分析大铺垫，

最后一点，很重要，我可以在这个阶段，同步去学习数学知识。

爬虫的结束就能自然往下过度最最最后

那么，我们可以开始列清单，需要学习的知识了。

参考了三四篇总结的，也有优先级之分。

第一点，正则表达式等。这个相当于对需要的数据筛选下。

第二点，网页的结构的基本了解（html、css、JavaScript）

第三点：关系型数据库、非关系性数据库的学习。

第四点：对网络知识要有基础认识。

第五点：对python的学习，在这份计划中，我们学习到可以使用爬虫阶段

具体如下：python基础入门、pythonweb、python爬虫

这里就是进阶，分为两个部分：

如何爬的更快更多：多线程、分布式技术

别人不让你爬你咋办：了解反扒技术。然后绕过反扒技术。

最后学习一些爬虫强大的框架

关注

4
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
进入大数据的世界

这一篇，是我对大数据学习的一点点规划。本人如今是准大三学生开始写这个文章，可能有点晚，但我相信我可以努力达到我的目标。大数据分为几个部分：数据挖掘：这一部分其实就是去寻找我们需要的数据源。数据预处理：对异常的数据进行一些手段，让他价值损失尽可能少，有参考意义。数据存储：更多的是介绍每个数据库的使用方法，当然这个其实可以深学，学习前人的思想可以让我们更快的进步。数据的计算和分析：这是我希望努力的方向，大数据专业不代表不需要学习数学，相反，发现数据的规律，需要很强大的数学逻辑。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。