自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

转载 Hadoop综合大作业

本次作业要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3363一、将爬虫大作业产生的csv文件上传到HDFS二、对CSV文件进行预处理生成无标题文本文件三、把hdfs中的文本文件最终导入到数据仓库Hive中四、在Hive中查看并分析数据...

2019-06-17 13:31:00 375

转载 分布式文件系统HDFS 练习

本次作业要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3310一、目录操作在HDFS中为hadoop用户创建一个用户目录(hadoop用户)在用户目录下创建一个input目录在HDFS的根目录下创建一个名称为input的目录删除HDFS根目...

2019-06-02 20:44:00 152

转载 安装Hadoop

本次作业要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3223一、安装Linux、MySql1、安装Ubuntu1)安装中2)安装完成2、安装MySQL1)、安装完成2)、测试数据库二、windows 与 虚拟机互传文件1、安装SSH2、...

2019-05-15 22:50:00 147

转载 爬虫综合大作业

本次作业要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3159可以用pandas读出之前保存的数据:newsdf = pd.read_csv(r'F:\duym\gzccnews.csv')一、把爬取的内容保存到数据库保存到sqlite3数据库import sqlite3with...

2019-05-06 21:05:00 191

转载 爬取全部的校园新闻

本次作业的要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/30020.从新闻url获取点击次数,并整理成函数newsUrlnewsId(re.search())clickUrl(str.format())requests.get(clickUrl)re.search()/.split(...

2019-04-12 17:30:00 131

转载 理解爬虫原理

本次作业要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2881一、 简单说明爬虫原理爬虫:即通过程序模拟浏览器请求站点的行为,把站点返回的HTML代码/JSON数据/二进制数据(图片、视频) 爬到本地,进而提取自己需要的数据,存放起来使用下面这幅图可以很好的表示爬虫的流程:二、理解爬虫...

2019-04-01 10:31:00 94

转载 中文词频统计与词云生成

本次作业的要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2822一、中文词频统计1. 下载一长篇中文小说。2. 从文件读取待分析文本。3. 安装并使用jieba进行中文分词。pip install jiebaimport jiebajieba.lcut(text)4. 更新词库,...

2019-03-22 17:49:00 410

转载 复合数据类型,英文词频统计

本次作业的要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2753一、列表,元组,字典,集合分别如何增删改查及遍历1、列表1)增append()方法:在列表的末尾增加一个元素insert()方法:在列表指定的位置上增加一个元素extend()方法:可迭代,分解成元素添加在末尾...

2019-03-17 15:22:00 153

转载 字符串操作、文件操作,英文词频统计预处理

本作业要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2684一、字符串操作(一)基本要求解析身份证号:生日、性别、出生地等。凯撒密码编码与解码网址观察与批量生成(二)编码实现1、解析身份证sfz=[]'''存放身份证前两位对应的省名'''placeNum={'...

2019-03-09 23:56:00 212

转载 了解大数据的特点、来源与数据呈现方式

本作业要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2639一、.浏览2019春节各种大数据分析报告这世间,再无第二个国家有能力承载如此庞大的人流量。http://www.sohu.com/a/290025769_313993春节人口迁徙大数据报告!http://www.sohu.com/a/2...

2019-03-01 17:19:00 426

转载 结对项目-四则运算 “软件”之升级版

本作业要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2213我的远程github地址为:https://github.com/lawnlawn/ruanjiangongcheng/tree/master/studentFormulaWeb/studentFormularWeb一、程序基本要求...

2018-10-24 00:49:00 114

转载 个人项目 — 小学四则运算 “软件”之初版

---恢复内容开始---本文要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2166小学四则运算的程序需求为:能自动生成小学四则运算题目,任何编程语言都可以,命令行程序接受一个数字输入,然后输出相应数目的四则运算题目和答案。例如输入数字是 30, 那就输出 30 道题目和答案。 运算式子必须至少有两个...

2018-10-09 11:27:00 147

转载 分布式版本控制系统Git的安装与使用

分布式版本控制系统Git的安装与使用本次作业要求来自:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2103一、安装Git bash软件二、修改用户名和邮箱地址三、查看用户名和邮箱地址四、创建目录ssgit并设置为仓库目录五、用Notepad++创建第一个文件...

2018-09-15 15:16:00 66

转载 第一次作业:准备

计算机,我的大学本文要求来自于:https://www.cnblogs.com/greyzeng/p/9581624.html  2016年9月,我踏进了广州商学院的大门,开始了我的计算机学习生涯。其实说起为什么会选择计算机专业,确实也是缘分。高中一直以来的梦想就是当一名中医,由于高考失利太多,去不到理想的中医药大学,填志愿那会儿沉闷了好一阵子。后来无意间感觉到计算机...

2018-09-08 18:44:00 138

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除