自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(22)
  • 收藏
  • 关注

转载 Hadoop综合大作业

一、用Hive对爬虫大作业产生的文本文件(或者英文词频统计下载的英文长篇小说)词频统计。1、启动hadoop2、上传英文词频统计文本至hdfs3、启动hive4、导入文件内容到表novel并查看5、用HQL进行词频统计,结果放在表k_word_count里6、查看统计结果二、用Hive对产生的csv文件进行数据分析,写一篇博客描述你的...

2018-05-25 21:42:00 140

转载 hive基本操作与应用

通过hadoop上的hive完成WordCount启动hadoopHdfs上创建文件夹上传文件至hdfs启动Hive创建原始文档表导入文件内容到表docs并查看用HQL进行词频统计,结果放在表word_count里查看统计结果转载于:https://www.cnblogs.com/RE148/p/9046842...

2018-05-16 16:56:00 92

转载 用mapreduce 处理气象数据集

编写程序求每日最高最低气温,区间最高最低气温气象数据集下载地址为:ftp://ftp.ncdc.noaa.gov/pub/data/noaa 2.按学号后三位下载不同年份月份的数据(例如201506110136号同学,就下载2013年以6开头的数据,看具体数据情况稍有变通)解压数据集,并保存在文本文件中对气象数据格式进行解析...

2018-05-09 21:29:00 319

转载 熟悉常用的HBase操作,编写MapReduce作业

1. 以下关系型数据库中的表和数据,要求将其转换为适合于HBase存储的表并插入数据:学生表(Student)(不包括最后一列)学号(S_No)姓名(S_Name)性别(S_Sex)年龄(S_Age)课程(course)2015001Zhangsanmale23...

2018-05-07 23:22:00 204

转载 爬虫大作业

1.选一个自己感兴趣的主题。2.用python 编写爬虫程序,从网络上爬取相关主题的数据。3.对爬了的数据进行文本分析,生成词云。4.对文本分析结果进行解释说明。5.写一篇完整的博客,描述上述实现过程、遇到的问题及解决办法、数据分析思想及结论。6.最后提交爬取的全部数据、爬虫及数据分析源代码。这里爬取了虎扑步行街的贴子,包括帖子标题,作者,时间,帖子链接,帖...

2018-04-29 22:55:00 349

转载 熟悉常用的HDFS操作

1.编程实现以下指定功能,并利用Hadoop提供的Shell命令完成相同任务:  1.在本地Linux文件系统的“/home/hadoop/”目录下创建一个文件txt,里面可以随意输入一些单词.    cd /usr/local/hadoop    touch test.txt  2.在本地查看文件位置(ls)    ls ...

2018-04-25 17:42:00 238

转载 数据结构化与保存

作业是转载同学的,因为没有对新闻信息做提取,所有无法添加新闻信息到字典。已练习pandas库的相关使用方法,导出excel文件。ps:自己的代码会尽快修改!import requestsfrom bs4 import BeautifulSoupfrom datetime import datetimeimport re, pandas# 获取新闻点...

2018-04-12 21:30:00 126

转载 获取全部校园新闻

import requestsfrom bs4 import BeautifulSoupfrom datetime import datetimeimport redef get_soup(url): req = requests.get(url) req.encoding = 'utf-8' soup = BeautifulSoup(r...

2018-04-11 14:58:00 80

转载 爬取校园新闻首页的新闻的详情,使用正则表达式,函数抽离

1. 用requests库和BeautifulSoup库,爬取校园新闻首页新闻的标题、链接、正文、show-info。2. 分析info字符串,获取每篇新闻的发布时间,作者,来源,摄影等信息。import requestsfrom bs4 import BeautifulSoupfrom datetime import datetimeimport redef...

2018-04-04 15:28:00 105

转载 网络爬虫基础

0.可以新建一个用于练习的html文件,在浏览器中打开。1.利用requests.get(url)获取网页页面的html文件import requestsnewsurl='http://news.gzcc.cn/html/xiaoyuanxinwen/'res = requests.get(newsurl) #返回response对象res.encoding='...

2018-03-28 21:57:00 84

转载 中文的分词+词频统计

下载一长篇中文文章。从文件读取待分析文本。news = open('gzccnews.txt','r',encoding = 'utf-8')安装与使用jieba进行中文分词。pip install jiebaimport jiebalist(jieba.lcut(news))生成词频统计排序排除语法型词汇,代词、冠词、连词输出词频最...

2018-03-28 16:18:00 193

转载 词频统计

import string#punctuation = [',','.','!','?','’',':','$','%']prep = ['a','in','of','the','to','at','it','on','and','so','his','that', 'not','was','my','were','we','he','an','...

2018-03-21 21:02:00 147

转载 字符串练习

字符串练习:http://news.gzcc.cn/html/2017/xiaoyuanxinwen_1027/8443.html取得校园新闻的编号s = 'http://news.gzcc.cn/html/2017/xiaoyuanxinwen_1027/8443.html'ns = s.rstrip('.html').split('_')print(ns[1]...

2018-03-20 23:03:00 151

转载 Python基础

import turtlestar_angle = 46def mygoto(x,y): #移动画笔 turtle.up() turtle.goto(x,y) turtle.down()def mystar(sx,line_angle=144): #画星星 global star_angle #使用一个全局变量...

2018-03-14 20:17:00 101

转载 熟悉常用的Linux操作

请按要求上机实践如下linux基本命令。cd命令:切换目录(1)切换到目录 /usr/local  cd /usr/local(2)去到目前的上层目录  cd ..(3)回到自己的主文件夹  cd ~ls命令:查看文件与目录(4)查看目录/usr下所有的文件  ls /usrmkdir命令:新建新目录(5)进入/tmp目录,创建...

2018-03-14 15:36:00 180

转载 大数据论述

1.试述大数据对思维方式的重要影响。(1)全样而非抽样  过去,由于数据存储和处理能力的限制,在科学分许中,通常采用抽样的方法,即从全集数据中抽取一部分样本数据,通过对样本数据的分析来推断全集数据的总体特征。现在,大数据时代的到来,为我们提供了海量数据的存储和处理。因此,在大数据技术的支持下,科学分析完全可以在全集数据中进行分析,并快速得到结果。(2)效率而非精确  过去...

2018-03-07 15:42:00 350

转载 递归下降分析程序报告

实验一、递归下降分析程序实验专业 商业软件工程 姓名 姓名 学号 201506110148一、 实验目的编译递归下降分析程序识别c语言文法二、 实验内容和要求简单写出c语言文法分析c语言文法是否为LL1文法,若不是,修改成LL1文法。编写程序实现对c语言LL1文法判断是否有语法错误三、...

2016-12-18 19:37:00 390

转载 c语言文法(新)

程序->外部声明 | 程序 外部声明程序->外部声明A'A'->外部声明A'|ε外部声明->修饰符 变量名 形参修饰符->void | int | char | float形参->修饰符A'A'->函数名|指针 变量名函数名->L | IL | ID函数名->LA'A'->LA'|DA'|ε...

2016-12-06 20:44:00 388

转载 c语言文法

程序->外部声明 | 程序 外部声明外部声明->修饰符 变量名 形参修饰符->void | int | char | float形参->修饰符 函数名|修饰符 指针 变量名函数名->L | IL | IDL->a|b|c|...|zD->0|1|2|...|9指针->’*’ | ’*’ 指针函数->外部...

2016-10-28 21:25:00 260

转载 实验一、词法分析实验

实验一、词法分析实验专业:商业软件工程2班 姓名:崔格畅 学号:201506110148一、 实验目的编制一个词法分析程序二、 实验内容和要求输入:源程序字符串;输出:二元组(种别,单词本身);待分析语言的词法规则。三、 实验方法、步骤及结果测试 1.源程序名:识别字符串.c ...

2016-10-14 15:12:00 187

转载 词法分析

#include<stdio.h>#include<string.h>char tempc[100];char tempf[100];char tempn[100];char ch[100];char r1[] = {"begin"};char r2[] = {"if"};char r3[] = {"then"};cha...

2016-09-30 15:56:00 112

转载 编译原理

1.什么是编译原理编译原理是计算机专业的一门重要专业课,旨在介绍编译程序构造的一般原理和基本方法。内容包括语言和文法、词法分析、语法分析、语法制导翻译、中间代码生成、存储管理、代码优化和目标代码生成。 编译原理是计算机专业设置的一门重要的专业课程。从功能上看,一个编译程序就是一个语言翻译程序。编译:就是将程序语言进行翻译,生成可供用户直接执行的二进制代码,即可执行文件。任务是个比较模...

2016-09-09 22:34:00 271

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除