自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 收藏
  • 关注

转载 《Hadoop综合大作业》

作业要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3339  我主要的爬取内容是关于热门微博文章“996”与日剧《我要准时下班》的联系,其中包括两个csv文件— —996与《我要准时下班》.csv与996与《我要准时下班》uid.csv。其中996与《我要准时下班》.csv的内容是用户的id、发表微博的内容...

2019-06-11 21:34:00 253

转载 分布式并行计算MapReduce

作业要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/33191. 用自己的话阐明Hadoop平台上HDFS和MapReduce的功能、工作原理和工作过程。(1)HDFS的功能:元数据、检查点、DataNode功能HDFS的工作原理:数据存取 - HDFS架构:Master / Slav...

2019-06-03 16:05:00 268

转载 分布式文件系统HDFS 练习

作业要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3292利用Shell命令与HDFS进行交互以”./bin/dfs dfs”开头的Shell命令方式1.目录操作(1)在HDFS中为hadoop用户创建一个用户目录(hadoop用户)(2)在用户目录下创建一个input目录(...

2019-05-27 21:07:00 240

转载 安装关系型数据库MySQL 安装大数据处理框架Hadoop

作业要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3161一、简述Hadoop平台的起源、发展历史与应用现状。列举发展过程中重要的事件、主要版本、主要厂商;1.重要的事件:  HADOOP最早起源于Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能,但...

2019-05-06 10:56:00 288

转载 爬虫综合大作业

作业要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3075热门微博— —996与日剧《我要准时下班》  至此,“996话题”在微博上被传得沸沸扬扬。微博上关于“996”的话题已超过千个,甚至更多。其中 “#如何鉴别996公司#”阅读量高达8181.5万,关于“996”的话题还有“#996奋斗者的日常...

2019-04-23 10:28:00 168

转载 爬取全部的校园新闻

  作业要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/29411.从新闻url获取新闻详情: 字典,anews#获取新闻页面信息def getNewsInfo(urlList): newsDict={}; newInfo = getHtml(urlList); so...

2019-04-09 01:41:00 149

转载 获取一篇新闻的全部信息

作业要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2894给定一篇新闻的链接newsUrl,获取该新闻的全部信息标题、作者、发布单位、审核、来源发布时间:转换成datetime类型点击:newsUrlnewsId(使用正则表达式re)clickUrl(str.format(new...

2019-04-01 21:49:00 147

转载 理解爬虫原理

作业要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/28511. 简单说明爬虫原理  通过程序模拟浏览器请求站点的行为,把站点返回的HTML代码/JSON数据/二进制数据(图片、视频) 爬到本地,进而提取自己需要的数据,存放起来使用。  2. 理解爬虫开发过程1).简要说明浏览器工作原理;...

2019-03-25 17:29:00 85

转载 中文词频统计

该作业要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2773中文词频统计1. 下载一长篇中文小说。2. 从文件读取待分析文本。3. 安装并使用jieba进行中文分词。  pip install jieba  import jieba  jieba.lcut(text)4. 更新词...

2019-03-18 20:40:00 124

转载 复合数据类型,英文词频统计

该作业要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/26961.列表,元组,字典,集合分别如何增删改查及遍历。  ①列表的增删改查及遍历:#列表listlist=["你好世界","C语言","JAVA","Python"];print("列表:",list);#增加list.ap...

2019-03-12 01:21:00 81

转载 字符串、文件操作,英文词频统计预处理

该作业要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/26461.字符串操作:解析身份证号:生日、性别、出生地等。#获取身份证号中的出生日期与性别identify=input("请输入您的身份证号:");while(len(identify)!=18): print("...

2019-03-05 22:38:00 125

转载 了解大数据的特点、来源与数据呈现方式以及用Python写Mad Libs游戏

作业的要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2620。1.浏览2019春节各种大数据分析报告,例如:这世间,再无第二个国家有能力承载如此庞大的人流量。http://www.sohu.com/a/290025769_313993春节人口迁徙大数据报告!http://www.sohu.com...

2019-02-25 21:52:00 130

转载 第五次作业:结对项目-四则运算 “软件”之升级版

作业要求来源于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2232项目的github地址:https://github.com/ShumeiHe/FourArithmetic_android结对同伴的学号:201606120102结对同伴的姓名:万玙结对同伴的博客地址:https://www.cnblo...

2018-10-29 11:56:00 110

转载 第四次作业:个人项目-小学四则运算 “软件”之初版

作业要求来源于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2186我的github地址:https://github.com/ShumeiHe/FourArithmetic一、需求分析  具体要求:任何编程语言都可以,命令行程序接受一个数字输入,然后输出相应数目的四则运算题目和答案。例如输入数字...

2018-10-14 21:14:00 196

转载 第3次作业:阅读《构建之法》1-5章

作业要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2178第一章 绪论第一章关键字:软件工程、开发过程、领域 上个学期课程开篇就提及了“软件危机”的典型表现,即书中的第一章的1.2.1节对应的软件开发过程中有什么特殊的难题?结合上学期的内容与书中的内容,以本人的不全面的理解— —软件危机...

2018-10-08 11:14:00 251

转载 分布式版本控制系统Git的安装与使用

作业要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/20971.下载安装配置用户名和邮箱。(1)下载安装Github配置(2)配置用户名命令:$git config --global user.name "ShumeiHe"(3)配置邮箱命令:$git config --global us...

2018-09-12 01:18:00 98

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除