自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

  • 博客(14)
  • 收藏
  • 关注

转载 大数据应用期末总评

作业要求:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/33631.将爬虫大作业产生的csv文件上传到HDFS启动hadoop服务在HDFS中创建/bigdatacase/dataset 文件夹 ,将文件上传到HDFS,用于存放成绩表 chengji.txt2.对CSV文件进行预处理...

2019-06-20 16:06:00 61

转载 分布式文件系统HDFS 练习

这次作业的要求:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3310利用Shell命令与HDFS进行交互以”./bin/dfs dfs”开头的Shell命令方式1.目录操作开启Hadoop服务在HDFS中为hadoop用户创建一个用户目录(hadoop用户)在用户目录下创建一个input...

2019-06-03 22:57:00 96

转载 安装Hadoop

作业要求来源:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3223Hadoop平台的搭建与实现3.1Hadoop 搭建拓扑图利用拓扑图来简要说明分布式Hadoop的master和多个slave节点的连接关系,结果如下图所示: ...

2019-05-14 23:12:00 63

转载 爬虫综合大作业

本次作业的要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3159可以用pandas读出之前保存的数据:newsdf = pd.read_csv(r'F:\duym\gzccnews.csv')一.把爬取的内容保存到数据库sqlite3import sqlite3with sqlite3.c...

2019-04-26 16:58:00 130

转载 爬取全部的校园新闻

本次作业的要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/30020.从新闻url获取点击次数,并整理成函数newsUrlnewsId(re.search())clickUrl(str.format())requests.get(clickUrl)re.search()/.split(...

2019-04-13 14:00:00 76

转载 理解爬虫原理

本次作业的要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2881一. 简单说明爬虫原理从技术层面来说就是 通过程序模拟浏览器请求站点的行为,把站点返回的HTML代码/JSON数据/二进制数据(图片、视频) 爬到本地,进而提取自己需要的数据,存放起来使用;二. 理解爬虫开发过程1).简要说明浏览器...

2019-03-29 17:53:00 73

转载 复合数据类型,英文词频统计

一、列表,元组,字典,集合分别如何增删改查及遍历1、列表1)增append()方法:在列表的末尾增加一个元素insert()方法:在列表指定的位置上增加一个元素extend()方法:可迭代,分解成元素添加在末尾2)删pop()方法: 按照下标索引删除指定的值remove()方法:按元素删除指定的值del:删除列表、也可以进行切片删除...

2019-03-25 13:44:00 73

转载 中文词频统计与词云生成

本次作业的要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2822一、中文词频统计1. 下载一长篇中文小说。2. 从文件读取待分析文本。3. 安装并使用jieba进行中文分词。pip install jiebaimport jiebajieba.lcut(text)4. 更新词库,...

2019-03-23 17:04:00 301

转载 字符串操作、文件操作,英文词频统计预处理

本作业要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2684一、字符串操作(一)基本要求解析身份证号:生日、性别、出生地等。凯撒密码编码与解码网址观察与批量生成(二)编码实现1、解析身份证id=[]'''存放身份证前两位对应的省名'''place={'11':...

2019-03-10 18:14:00 67

转载 了解大数据的特点、来源与数据呈现方式

本作业要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2639一、.浏览2019春节各种大数据分析报告这世间,再无第二个国家有能力承载如此庞大的人流量。http://www.sohu.com/a/290025769_313993春节人口迁徙大数据报告!http://www.sohu.com/a/2...

2019-03-03 17:17:00 780

转载 第四次作业---四则运算升级版(带可视化界面)

本次作业要求来自:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2213我的github远程仓库的地址:https://github.com/879539613/IT-apk第一部分:要求从个人项目出发,将程序改造成一个单机带用户界面(不是控制台)的程序,这个程序最基本要达到:自动生成题目,单个题目最多...

2018-10-24 18:05:00 153

转载 第三次作业:个人项目-小学四则运算 “软件”

本次作业要求来自:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2166我的github远程仓库的地址:https://github.com/879539613/IT-apk第一部分:要求具体要求:任何编程语言都可以,命令行程序接受一个数字输入,然后输出相应数目的四则运算题目和答案。例如输入数字是 30, 那就...

2018-10-08 01:36:00 101

转载 分布式版本控制系统Git的安装与使用

本次作业要求来自:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2103我的github远程仓库的地址:https://github.com/879539613/IT-apk1、配置用户名和邮箱(并查看)2、创建工作目录并通过 git init命令把这个目录变成Git可以管理的仓库3、...

2018-09-15 16:34:00 60

转载 人生不止当下,还要注重未来!

这次作业的要求来自于:https://www.cnblogs.com/greyzeng/p/9581624.html你为何要来上课并且认真参与? 参考网址----->http://www.scalerstalk.com/816-attention Scalers老师就“大学生上课为什么要认真听课?”这个问题做了详细的点评,深刻地指出了当下的大学生意志力...

2018-09-08 02:19:00 92

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除