笔记
m0_51988444
这个作者很懒,什么都没留下…
展开
-
2020-12-09
网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。另外,所有被爬虫抓取的网页将会被系统原创 2020-12-09 16:25:16 · 100 阅读 · 0 评论 -
2020-11-10
hadoop hadoop是一个由Apache基金会所开发的分布式系统基础架构。 它可以使用户在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的威力进行高速运算和存储。hadoop的框架最核心的设计就是HDFS和MapReduce,HDFS为海量的数据提供了存储,MapReduce则为海量的数据提供了计算。 ...原创 2020-11-10 14:27:05 · 89 阅读 · 0 评论 -
大数据技术导论
作为大一新生,我报了大数据专业,如我所想的那样,它深深吸引到了我,今天第一次接触,学习了大数据的概念和特征,大数据是指无法在一定时间范围内用常规软件工具进行捕捉,管理和处理的数据集合,大数据具有4V特征,![在这里插入图片描述](https://img-blog.csdnimg.cn/20201027161541593.jpg?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNz.原创 2020-10-27 16:18:10 · 2244 阅读 · 1 评论