- 博客(16)
- 收藏
- 关注
转载 作业——12 hadoop大作业
作业的要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3339Hadoop综合大作业1.以下是爬虫大作业产生的csv文件把csv上传到HDFS2.对CSV文件进行预处理生成无标题文本文件3.把hdfs中的文本文件最终导入到数据仓库Hive中,在Hive中查看并分析数据。...
2019-06-12 12:05:00 304
转载 作业——11 分布式并行计算MapReduce
作业的要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/33191.用自己的话阐明Hadoop平台上HDFS和MapReduce的功能、工作原理和工作过程。 HDFS 功能 分布式文件系统,用来存储海量数据。 工作原理 1、HDFS集群分为两大角色:Name...
2019-06-03 12:53:00 434
转载 作业——10 分布式文件系统HDFS 练习
作业的要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3292利用Shell命令与HDFS进行交互以”./bin/dfs dfs”开头的Shell命令方式1.目录操作在HDFS中为hadoop用户创建一个用户目录(hadoop用户)在用户目录下创建一个input目录在HD...
2019-05-27 14:31:00 364
转载 作业——09 安装关系型数据库MySQL 安装大数据处理框架Hadoop
作业的要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3161简述Hadoop平台的起源、发展历史与应用现状。 起源: 2003-2004年,Google公布了部分GFS和MapReduce思想的细节,受此启发的Doug Cutting等人用2年的业余时间实现了DFS和MapReduce机制...
2019-05-06 10:43:00 143
转载 作业——08 爬虫综合大作业
作业的要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3075一.把爬取的内容保存取MySQL数据库import pandas as pdimport pymysqlfrom sqlalchemy import create_engineconInfo = "mysql+pymy...
2019-04-28 15:20:00 276
转载 作业——07 爬取全部的校园新闻
作业的要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/29411.从新闻url获取新闻详情: 字典,anewsimport requestsfrom bs4 import BeautifulSoupfrom datetime import datetimeimport re...
2019-04-10 08:57:00 120
转载 作业——06 获取一篇新闻的全部信息
作业的要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2894给定一篇新闻的链接newsUrl,获取该新闻的全部信息 标题、作者、发布单位、审核、来源 发布时间:转换成datetime类型 点击:newsUrlnewsId(使用正则表达式re)clickUrl(str.f...
2019-04-01 12:10:00 90
转载 作业——05 理解爬虫原理
作业的要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/28511. 简单说明爬虫原理 通过程序模拟浏览器请求站点的行为,把站点返回的HTML代码/JSON数据/二进制数据(图片、视频) 爬到本地,进而提取自己需要的数据,存放起来使用。2. 理解爬虫开发过程 1).简要说明浏览器工作原理;...
2019-03-25 20:55:00 152
转载 作业——04 中文词频统计
作业的要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/27731. 下载一长篇中文小说。2. 从文件读取待分析文本。3. 安装并使用jieba进行中文分词。 pip install jieba import jieba ljieba.lcut(text)4. 更新词库,...
2019-03-18 14:08:00 160
转载 作业——03 复合数据类型,英文词频统计
作业的要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/26961.列表,元组,字典,集合分别如何增删改查及遍历。 列表操作如下:#列表list1 = ['Google', 'Runoob', 1997, 2000];list2 = [1, 2, 3, 4, 5 ];list3...
2019-03-11 23:45:00 116
转载 作业——02 字符串、文件操作,英文词频统计预处理
作业的要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/26461.字符串操作:解析身份证号:生日、性别、出生地等。# -*- coding: utf-8 -*-"""Spyder EditorThis is a temporary script file.""...
2019-03-05 22:32:00 158
转载 作业——01 了解大数据的特点、来源与数据呈现方式
作业要求:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/26201.浏览2019春节各种大数据分析报告,例如:这世间,再无第二个国家有能力承载如此庞大的人流量。http://www.sohu.com/a/290025769_313993春节人口迁徙大数据报告!http://www.sohu.com/a/...
2019-02-25 13:31:00 144
转载 作业四:个人项目-小学四则运算之JAVA版
作业的要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2186代码所在的github远程仓库的地址:https://github.com/lyh-2333/lyhthree github仓库文件:项目文件(Operations.zip);代码文件(operstions.txt);可执行文件(public...
2018-10-13 16:48:00 497
转载 作业三:读《构建之法》1-5章后感
这个作业的要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2178 国庆小长假期间,经过白天的忙碌,晚上的时间,终于能够静下心来看看这尚未细读过的《构建之法》。以下便是我的一点小感想。第一章 概论 第一章主要是讲述了计算机科学的领域,软件工程和计算机科学的关系,软件的特性,软件工程的定义与组...
2018-10-07 18:08:00 115
转载 作业二:Git的安装与使用
作业的要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2097分布式版本控制系统Git的安装与使用1.下载安装配置用户名和邮箱。我的用户名使用的是lyh,邮箱是我的常用邮箱1441933213@qq.com2. 创建工作目录并通过git init命令把这个目录变成Git可以管理的...
2018-09-11 22:18:00 106
转载 作业一:准备
这个作业的要求来自于:http://www.cnblogs.com/greyzeng/p/9581624.html第一部分:结缘计算机推荐博客:博客I你为什么选择计算机专业?你认为你的条件如何?和这些博主比呢?(必答) 我选择计算机专业的原因,主要还是因为兴趣。我在初中那会就拥有了第一台属于自己的计算机,但是还没有到必须联网的地步(主要用于英语单词读写听的...
2018-09-06 23:40:00 126
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人