笔记
胡力予.
这个作者很懒,什么都没留下…
展开
-
2020-12-09
什么是爬虫?请求网站并提取数据的自动化程序爬虫的基本流程1:向服务器发起请求通过HTTP库向目标站点发起请求,即发送一个Request,请求可以包含额外的headers等信息,等待服务器的响应。2:获取响应内容如果服务器正常响应,会得到一个Response,Response的内容便是所要获取的页面内容,类型可能有HTML、JSON、二进制文件(如图片、视频等类型)。3:解析内容得到的内容可能是HTML,可以用正则表达式、网页解析库进行解析。可能是JSON,可以直接转成JOSN对象进行解析,可原创 2020-12-09 22:05:01 · 83 阅读 · 0 评论 -
2020-11-24
HDFS集群有两类节点,并以管理者-工作者模式运行,即一个NameNode(管理者)和多个DataNode(工作者)。一个HDFS cluster包含一个NameNode和若干的DataNode,NameNode(以下简称nn)是master,主要负责管理hdfs文件系统,具体地包括namespace管理(其实就是目录结构),block管理(其中包括 filename->block,block->datanode list的对应关系)。nn提供的是始终被动接收服务的server,主要有四类协议接原创 2020-11-24 12:36:26 · 129 阅读 · 0 评论 -
2020-11-17
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),其中一个组件是HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS原创 2020-11-17 11:29:54 · 131 阅读 · 0 评论 -
2020-11-03
Velocity 速度 速率 更快的处理数据value 价值 (价值密度低 ,过滤出有价值的信息)variety 类型 数据的结构(有结构的数据,半结构数据,无结构数据)volume 体积(非常大。)老师还普及了一下电脑的容量单位由于中专的时候学过就不过多的解释了。老师也讲了一些关于大数据的起源,让我认识很多。对大数据有了一定的了解,如今就是大数据的时代,学好这门课对我们未来有很大的帮助。...原创 2020-11-03 12:39:04 · 76 阅读 · 0 评论