自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 收藏
  • 关注

转载 大数据应用期末总评Hadoop综合大作业

作业要求来源于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/33391.将爬虫大作业产生的csv文件上传到HDFS此次作业选取的是爬虫《反贪风暴》短评数据生成的info.csv文件;爬取的数据总数为16141条。cm.csv文件数据如下图所示:将info.csv文件上存到HDFS2.对...

2019-06-19 18:59:00 866

转载 hadoop平台上HDFS和MAPREDUCE的功能、工作原理和工作过程

作业要求来源:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/33191.用自己的话阐明Hadoop平台上HDFS和MapReduce的功能、工作原理和工作过程。HDFS常用功能1.元数据2.检查点3.DataNode功能HDFS工作原理1 分布式文件系统,它所管理的文件是被切块存储在...

2019-06-06 21:53:00 957

转载 hadoop平台上HDFS和MAPREDUCE的功能、工作原理和工作过程

HDFS常用功能1.元数据2.检查点3.DataNode功能HDFS工作原理1 分布式文件系统,它所管理的文件是被切块存储在若干台datanode服务器上.2 hdfs提供了一个统一的目录树来定位hdfs中的文件,客户端访问文件时只要指定目录树的路径即可,不用关心文件的具体物理位置.3 每一个文件的每一个切块,在hdfs集群中都可以保存多个备份(默认...

2019-06-03 09:59:00 356

转载 分布式文件系统HDFS练习

作业来源:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/32921.目录操作:(1)、在HDFS中为hadoop用户创建一个用户目录(hadoop用户):(2)、在用户目录下创建一个input目录(3)、在HDFS的根目录下创建一个名称为input的目录...

2019-05-31 21:41:00 262

转载 hive的安装

转载于:https://www.cnblogs.com/068zhengda/p/10891676.html

2019-05-20 00:20:00 68

转载 安装关系型数据库MySQL和大数据处理框架Hadoop

作业要求来源:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/31611.简述Hadoop平台的起源、发展历史与应用现状。 Hadoop系统最初的源头来自于Apache Lucene项目下的搜索引擎子项目Nutch,该项目的负责人是Doug Cutting。2003年,Google公司为了解决其搜索引擎中...

2019-05-12 17:30:00 92

转载 爬虫综合大作业

本次作业爬取的是最近上映的很火热的电影《反贪风暴》。希望可以爬取一些有意义的东西。最新电影票房排行明细:Scrapy使用的基本流程:引擎从调度器中取出一个链接(URL)用于接下来的抓取引擎把URL封装成一个请求(Request)传给下载器下载器把资源下载下来,并封装成应答包(Response)爬虫解析Response...

2019-04-28 21:27:00 342

转载 爬取全部的校园新闻

1.从新闻url获取新闻详情: 字典,anewsimport requestsfrom bs4 import BeautifulSoupfrom datetime import datetimeimport redef click(xbk): id=re.findall('(\d{1,5})',xbk)[-1] clickUr...

2019-04-12 21:30:00 89

转载 获取一篇新闻的全部信息

给定一篇新闻的链接newsUrl,获取该新闻的全部信息标题、作者、发布单位、审核、来源发布时间:转换成datetime类型点击:newsUrlnewsId(使用正则表达式re)clickUrl(str.format(newsId))requests.get(clickUrl)newClick(用字符串处理,或正则表达式)int()# -*-...

2019-04-03 20:40:00 70

转载 理解爬虫原理

1. 简单说明爬虫原理如果我们把互联网比作一张大的蜘蛛网,数据便是存放于蜘蛛网的各个节点,而爬虫就是一只小蜘蛛,沿着网络抓取自己的猎物(数据)爬虫指的是:向网站发起请求,获取资源后分析并提取有用数据的程序;从技术层面来说就是 通过程序模拟浏览器请求站点的行为,把站点返回的HTML代码/JSON数据/二进制数据(图片、视频) 爬到本地,进而提取自己需要的数据,存放起来使用;...

2019-03-27 20:48:00 92

转载 中文词频统计

文章选择:中文词频统计选择了郭敬明的小说《悲伤逆流成河》。中文词频统计:1. 下载一长篇中文小说。2. 从文件读取待分析文本。3. 安装并使用jieba进行中文分词。pip install jiebaimport jiebaljieba.lcut(text)4. 更新词库,加入所分析对象的专业词汇。jieba.add_word('天罡北斗阵') ...

2019-03-18 21:08:00 140

转载 复合数据类型

1.列表,元组,字典,集合分别如何增删改查及遍历。2.总结列表,元组,字典,集合的联系与区别元组和列表是类似的, 只是元组不可修改内容。注意这里指的是不可修改元组元素的指向, 可以修改内容指向的内容。字典完全区别于列表和元组因为字典使用hash表来存储, 所以只有能够进行hash运算的才能作为键值。个人认为, 一般不可变的都能作为键, 比如str/tuple/No...

2019-03-14 21:18:00 122

转载 字符串、文件操作,英文词频统计预处理

作业要求来源于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/26461.字符串操作:解析身份证号:生日、性别、出生地等。代码如下:# # -*- coding: utf-8 -*-import repattern = r"^[1-6]\d{5}[12]\d{3}(0[1-9]|1[12])(0[1-9]|1[0-9]...

2019-03-06 21:33:00 70

转载 【大数据应用技术】作业一 |了解大数据的特点、来源与数据呈现方式

本次作业的要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/26201.分析所采用数据的来源有哪些?通过观看<<大数据中的春节>>这篇文章,深刻觉察到大数据分析报告对我们的生活产生很大的影响。时刻影响着我们的生活!其数据来源于:(1)国家交通局。(2)中国旅游研究院。...

2019-02-26 21:20:00 405

转载 结对项目——四则运算 “软件”之升级版

结对项目——四则运算 “软件”之升级版这个作业的要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2232我的github远程仓库的地址为:https://github.com/201606120068/068-Git结对同伴的学号:201606120068结对同伴的姓名:谢斌揆201...

2018-10-29 12:59:00 92

转载 作业四 个人项目-小学四则运算 “软件”

本次作业要求来自:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2186我的github远程仓库的地址:https://github.com/201606120068/068-Git一、题目要求像《构建之法》的人物阿超那样,写一个能自动生成小学四则运算题目的命令行 “软件”。具体要求:任何编程...

2018-10-14 21:50:00 106

转载 作业三:读《构建之法》1-5章有感

作业三:读《构建之法》1-5章有感这个作业的要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2178。没有作业的假期是不完整的假期,特别是国庆七天长假,哈哈。国庆佳节,几乎人人都回家了,剩下自己在宿舍,难得的清静,实在享受。翻开好久都没有翻开过的《构建之法》,从第一页开始看起,认认真真...

2018-10-08 01:24:00 119

转载 分布式版本控制系统Git的安装与使用

作业的要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2097远端库地址:https://github.com/201606120068/068-Git参考链接:https://www.liaoxuefeng.com/wiki/0013739516305929606dd18361248578c6...

2018-09-16 20:05:00 66

转载 用热情点燃软件工程II

这个作业的要求来自于:https://www.cnblogs.com/greyzeng/p/9581624.html阅读完文章(热情、能力、选择)深有感触。文章链接为:http://coolshell.cn/articles/4561.html。 这篇文章简直就是刷新了我的三观。使我对自己的专业有了深一点的了解与感悟。阅读完整篇文章,深深地感到了人与人之间...

2018-09-06 23:24:00 104

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除