大数据的几个大模块
这一篇,是我对大数据学习的一点点规划。
本人如今是准大三学生开始写这个文章,可能有点晚,但我相信我可以努力达到我的目标。
大数据分为几个部分:
数据挖掘:这一部分其实就是去寻找我们需要的数据源。
数据预处理:对异常的数据进行一些手段,让他价值损失尽可能少,有参考意义。
数据存储:更多的是介绍每个数据库的使用方法,当然这个其实可以深学,学习前人的思想可以让我们更快的进步。
数据的计算和分析:这是我希望努力的方向,大数据专业不代表不需要学习数学,相反,发现数据的规律,需要很强大的数学逻辑。这是我薄弱的部分,也是我需要去捡前面掉落的数学知识的部分。
数据可视化:好看的展示给用户
从爬虫入门大数据
这一部分其实要学习需要我们有很系统的前端网页知识他涉及的数理逻辑比较少,更多的是去考虑需要找到什么信息,怎么找,
为什么我会以选择爬虫入门呢?
学习的内容是对之前内容的复习加学习一部分新内容,如爬取网页,我需要复习html、css、mysql、python等等的知识储备。然后web知识、爬虫设计、正则表达式等这些新知识点的学习,这里会学习一部分非关系数据库的应用,这也相当于为之后的数据存储和数据分析大铺垫,
最后一点,很重要,我可以在这个阶段,同步去学习数学知识。
爬虫的结束就能自然往下过度最最最后
那么,我们可以开始列清单,需要学习的知识了。
参考了三四篇总结的,也有优先级之分。
第一点,正则表达式等。这个相当于对需要的数据筛选下。
第二点,网页的结构的基本了解(html、css、JavaScript)
第三点:关系型数据库、非关系性数据库的学习。
第四点:对网络知识要有基础认识。
第五点:对python的学习,在这份计划中,我们学习到可以使用爬虫阶段
具体如下:python基础入门、pythonweb、python爬虫
这里就是进阶,分为两个部分:
如何爬的更快更多:多线程、分布式技术
别人不让你爬你咋办:了解反扒技术。然后绕过反扒技术。
最后学习一些爬虫强大的框架