进入大数据的世界

大数据的几个大模块

这一篇,是我对大数据学习的一点点规划。

本人如今是准大三学生开始写这个文章,可能有点晚,但我相信我可以努力达到我的目标。

大数据分为几个部分:

数据挖掘:这一部分其实就是去寻找我们需要的数据源。

数据预处理:对异常的数据进行一些手段,让他价值损失尽可能少,有参考意义。

数据存储:更多的是介绍每个数据库的使用方法,当然这个其实可以深学,学习前人的思想可以让我们更快的进步。

数据的计算和分析:这是我希望努力的方向,大数据专业不代表不需要学习数学,相反,发现数据的规律,需要很强大的数学逻辑。这是我薄弱的部分,也是我需要去捡前面掉落的数学知识的部分。

数据可视化:好看的展示给用户

从爬虫入门大数据

这一部分其实要学习需要我们有很系统的前端网页知识他涉及的数理逻辑比较少,更多的是去考虑需要找到什么信息,怎么找,

为什么我会以选择爬虫入门呢?

学习的内容是对之前内容的复习加学习一部分新内容,如爬取网页,我需要复习html、css、mysql、python等等的知识储备。然后web知识、爬虫设计、正则表达式等这些新知识点的学习,这里会学习一部分非关系数据库的应用,这也相当于为之后的数据存储和数据分析大铺垫,

最后一点,很重要,我可以在这个阶段,同步去学习数学知识。

爬虫的结束就能自然往下过度最最最后

那么,我们可以开始列清单,需要学习的知识了。

参考了三四篇总结的,也有优先级之分。

第一点,正则表达式等。这个相当于对需要的数据筛选下。

第二点,网页的结构的基本了解(html、css、JavaScript)

第三点:关系型数据库、非关系性数据库的学习。

第四点:对网络知识要有基础认识。

第五点:对python的学习,在这份计划中,我们学习到可以使用爬虫阶段

具体如下:python基础入门、pythonweb、python爬虫

这里就是进阶,分为两个部分:

如何爬的更快更多:多线程、分布式技术

别人不让你爬你咋办:了解反扒技术。然后绕过反扒技术。

最后学习一些爬虫强大的框架

  • 4
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值