自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

转载 Hadoop综合大作业

作业来源:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3363Hadoop综合大作业 要求:1.将爬虫大作业产生的csv文件上传到HDFS2.对CSV文件进行预处理生成无标题文本文件3.把hdfs中的文本文件最终导入到数据仓库Hive中4.在Hive中查看并分析数据...

2019-06-19 21:19:00 197

转载 分布式文件系统HDFS 练习

作业来源:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3310利用Shell命令与HDFS进行交互以”./bin/dfs dfs”开头的Shell命令方式1.目录操作在HDFS中为hadoop用户创建一个用户目录(hadoop用户)在用户目录下创建一个input目录在HDFS的根目录下创建一个...

2019-05-31 18:18:00 102

转载 安装Hadoop

作业来源:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3223安装Linux,MySql测试数据库通过windows互传文件安装Hadoop执行namenode格式化启动hadoo...

2019-05-16 16:22:00 84

转载 爬虫综合大作业

作业来源:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3159可以用pandas读出之前保存的数据:newsdf = pd.read_csv(r'F:\duym\gzccnews.csv')一.把爬取的内容保存到数据库sqlite3import sqlite3with sqlite3.connect...

2019-05-09 00:06:00 270

转载 爬取全部的校园新闻

作业来源:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/30020.从新闻url获取点击次数,并整理成函数newsUrlnewsId(re.search())clickUrl(str.format())requests.get(clickUrl)re.search()/.split()str...

2019-04-12 17:17:00 74

转载 理解爬虫原理

作业来源:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/28811. 简单说明爬虫原理 如果我们把互联网比作一张大的蜘蛛网,数据便是存放于蜘蛛网的各个节点,而爬虫就是一只小蜘蛛, 沿着网络抓取自己的猎物(数据)爬虫指的是:向网站发起请求,获取资源后分析并提取有用数据的程序; 从技术层面来说...

2019-03-29 17:30:00 80

转载 中文词频统计与词云生成

作业要求来源:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/28221. 下载一长篇中文小说。2. 从文件读取待分析文本。3. 安装并使用jieba进行中文分词。pip install jiebaimport jiebajieba.lcut(text)4. 更新词库,加入所分析对象的专业词汇。...

2019-03-22 18:32:00 161

转载 复合数据类型,英文词频统计

本次作业来源:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/27531.列表,元组,字典,集合分别如何增删改查及遍历。列表: 对列表的数据项进行修改或更新,你也可以使用append()方法来添加列表项;可以使用 del 语句来删除列表的的元素; (1)增 ...

2019-03-22 16:05:00 96

转载 字符串操作、文件操作,英文词频统计预处理

作业来源:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/26841.字符串操作:解析身份证号:生日、性别、出生地等。# -*- coding: utf-8 -*-"""Spyder EditorThis is a temporary script file."""#获取身份证号中...

2019-03-08 17:54:00 136

转载 了解大数据的特点、来源与数据呈现方式

作业来源:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/26391.分析所采用数据的来源有哪些?(1)交易数据。包括POS机数据、信用卡刷卡数据、电子商务数据、互联网点击数据、“企业资源规划”(ERP)系统数据、销售系统数据、客户关系管理(CRM)系统数据、公司的生产数据、库存数据、订单数据、供应链数据等。...

2019-03-01 18:04:00 584

转载 结对项目-四则运算 “软件”之升级版

作业来源:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2213Github地址:https://github.com/yanyuluu/yanyuluu/tree/master/software一、基本要求从个人项目出发,将程序改造成一个单机带用户界面(不是控制台)的程序,这个程序最基本要达到:自动...

2018-10-24 18:22:00 103

转载 第三次作业:个人项目-小学四则运算 “软件”之初版

本次作业要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2166我的项目GitHub远程仓库地址:https://github.com/hycolins/work/tree/master/sizeyunsuan一、题目要求:像《构建之法》的人物阿超那样,写一个能自动生成小学四则运算题目的命令行 “软件...

2018-10-10 10:45:00 118

转载 分布式版本控制系统Git的安装与使用

本次作业要求来自:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2103我的github远程仓库的地址:https://github.com/hycolins/work1.下载安装配置用户名和邮箱。 修改用户名和查看用户名: 修改邮箱地址和查看邮箱地址: 2. 创建...

2018-09-15 15:50:00 63

转载 第一次作业:准备

这个作业的要求来自于:https://www.cnblogs.com/greyzeng/p/9581624.html针对课堂上老师要求我们着重阅读的两篇文章,我的回答如下:Q1:你为何要来上课并认真参与?想法来自Scalers的博客“大学生上课为什么一定要认真听讲?” 网址:http://www.scalerstalk.com/816-attentionA:我来上课是因为...

2018-09-05 11:40:00 155

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除