- 博客(22)
- 收藏
- 关注
转载 Hadoop综合大作业
一、用Hive对爬虫大作业产生的文本文件(或者英文词频统计下载的英文长篇小说)词频统计。1、启动hadoop2、上传英文词频统计文本至hdfs3、启动hive4、导入文件内容到表novel并查看5、用HQL进行词频统计,结果放在表k_word_count里6、查看统计结果二、用Hive对产生的csv文件进行数据分析,写一篇博客描述你的...
2018-05-25 21:42:00
140
转载 hive基本操作与应用
通过hadoop上的hive完成WordCount启动hadoopHdfs上创建文件夹上传文件至hdfs启动Hive创建原始文档表导入文件内容到表docs并查看用HQL进行词频统计,结果放在表word_count里查看统计结果转载于:https://www.cnblogs.com/RE148/p/9046842...
2018-05-16 16:56:00
92
转载 用mapreduce 处理气象数据集
编写程序求每日最高最低气温,区间最高最低气温气象数据集下载地址为:ftp://ftp.ncdc.noaa.gov/pub/data/noaa 2.按学号后三位下载不同年份月份的数据(例如201506110136号同学,就下载2013年以6开头的数据,看具体数据情况稍有变通)解压数据集,并保存在文本文件中对气象数据格式进行解析...
2018-05-09 21:29:00
319
转载 熟悉常用的HBase操作,编写MapReduce作业
1. 以下关系型数据库中的表和数据,要求将其转换为适合于HBase存储的表并插入数据:学生表(Student)(不包括最后一列)学号(S_No)姓名(S_Name)性别(S_Sex)年龄(S_Age)课程(course)2015001Zhangsanmale23...
2018-05-07 23:22:00
204
转载 爬虫大作业
1.选一个自己感兴趣的主题。2.用python 编写爬虫程序,从网络上爬取相关主题的数据。3.对爬了的数据进行文本分析,生成词云。4.对文本分析结果进行解释说明。5.写一篇完整的博客,描述上述实现过程、遇到的问题及解决办法、数据分析思想及结论。6.最后提交爬取的全部数据、爬虫及数据分析源代码。这里爬取了虎扑步行街的贴子,包括帖子标题,作者,时间,帖子链接,帖...
2018-04-29 22:55:00
349
转载 熟悉常用的HDFS操作
1.编程实现以下指定功能,并利用Hadoop提供的Shell命令完成相同任务: 1.在本地Linux文件系统的“/home/hadoop/”目录下创建一个文件txt,里面可以随意输入一些单词. cd /usr/local/hadoop touch test.txt 2.在本地查看文件位置(ls) ls ...
2018-04-25 17:42:00
238
转载 数据结构化与保存
作业是转载同学的,因为没有对新闻信息做提取,所有无法添加新闻信息到字典。已练习pandas库的相关使用方法,导出excel文件。ps:自己的代码会尽快修改!import requestsfrom bs4 import BeautifulSoupfrom datetime import datetimeimport re, pandas# 获取新闻点...
2018-04-12 21:30:00
126
转载 获取全部校园新闻
import requestsfrom bs4 import BeautifulSoupfrom datetime import datetimeimport redef get_soup(url): req = requests.get(url) req.encoding = 'utf-8' soup = BeautifulSoup(r...
2018-04-11 14:58:00
80
转载 爬取校园新闻首页的新闻的详情,使用正则表达式,函数抽离
1. 用requests库和BeautifulSoup库,爬取校园新闻首页新闻的标题、链接、正文、show-info。2. 分析info字符串,获取每篇新闻的发布时间,作者,来源,摄影等信息。import requestsfrom bs4 import BeautifulSoupfrom datetime import datetimeimport redef...
2018-04-04 15:28:00
105
转载 网络爬虫基础
0.可以新建一个用于练习的html文件,在浏览器中打开。1.利用requests.get(url)获取网页页面的html文件import requestsnewsurl='http://news.gzcc.cn/html/xiaoyuanxinwen/'res = requests.get(newsurl) #返回response对象res.encoding='...
2018-03-28 21:57:00
84
转载 中文的分词+词频统计
下载一长篇中文文章。从文件读取待分析文本。news = open('gzccnews.txt','r',encoding = 'utf-8')安装与使用jieba进行中文分词。pip install jiebaimport jiebalist(jieba.lcut(news))生成词频统计排序排除语法型词汇,代词、冠词、连词输出词频最...
2018-03-28 16:18:00
193
转载 词频统计
import string#punctuation = [',','.','!','?','’',':','$','%']prep = ['a','in','of','the','to','at','it','on','and','so','his','that', 'not','was','my','were','we','he','an','...
2018-03-21 21:02:00
147
转载 字符串练习
字符串练习:http://news.gzcc.cn/html/2017/xiaoyuanxinwen_1027/8443.html取得校园新闻的编号s = 'http://news.gzcc.cn/html/2017/xiaoyuanxinwen_1027/8443.html'ns = s.rstrip('.html').split('_')print(ns[1]...
2018-03-20 23:03:00
151
转载 Python基础
import turtlestar_angle = 46def mygoto(x,y): #移动画笔 turtle.up() turtle.goto(x,y) turtle.down()def mystar(sx,line_angle=144): #画星星 global star_angle #使用一个全局变量...
2018-03-14 20:17:00
101
转载 熟悉常用的Linux操作
请按要求上机实践如下linux基本命令。cd命令:切换目录(1)切换到目录 /usr/local cd /usr/local(2)去到目前的上层目录 cd ..(3)回到自己的主文件夹 cd ~ls命令:查看文件与目录(4)查看目录/usr下所有的文件 ls /usrmkdir命令:新建新目录(5)进入/tmp目录,创建...
2018-03-14 15:36:00
180
转载 大数据论述
1.试述大数据对思维方式的重要影响。(1)全样而非抽样 过去,由于数据存储和处理能力的限制,在科学分许中,通常采用抽样的方法,即从全集数据中抽取一部分样本数据,通过对样本数据的分析来推断全集数据的总体特征。现在,大数据时代的到来,为我们提供了海量数据的存储和处理。因此,在大数据技术的支持下,科学分析完全可以在全集数据中进行分析,并快速得到结果。(2)效率而非精确 过去...
2018-03-07 15:42:00
350
转载 递归下降分析程序报告
实验一、递归下降分析程序实验专业 商业软件工程 姓名 姓名 学号 201506110148一、 实验目的编译递归下降分析程序识别c语言文法二、 实验内容和要求简单写出c语言文法分析c语言文法是否为LL1文法,若不是,修改成LL1文法。编写程序实现对c语言LL1文法判断是否有语法错误三、...
2016-12-18 19:37:00
390
转载 c语言文法(新)
程序->外部声明 | 程序 外部声明程序->外部声明A'A'->外部声明A'|ε外部声明->修饰符 变量名 形参修饰符->void | int | char | float形参->修饰符A'A'->函数名|指针 变量名函数名->L | IL | ID函数名->LA'A'->LA'|DA'|ε...
2016-12-06 20:44:00
388
转载 c语言文法
程序->外部声明 | 程序 外部声明外部声明->修饰符 变量名 形参修饰符->void | int | char | float形参->修饰符 函数名|修饰符 指针 变量名函数名->L | IL | IDL->a|b|c|...|zD->0|1|2|...|9指针->’*’ | ’*’ 指针函数->外部...
2016-10-28 21:25:00
260
转载 实验一、词法分析实验
实验一、词法分析实验专业:商业软件工程2班 姓名:崔格畅 学号:201506110148一、 实验目的编制一个词法分析程序二、 实验内容和要求输入:源程序字符串;输出:二元组(种别,单词本身);待分析语言的词法规则。三、 实验方法、步骤及结果测试 1.源程序名:识别字符串.c ...
2016-10-14 15:12:00
187
转载 词法分析
#include<stdio.h>#include<string.h>char tempc[100];char tempf[100];char tempn[100];char ch[100];char r1[] = {"begin"};char r2[] = {"if"};char r3[] = {"then"};cha...
2016-09-30 15:56:00
112
转载 编译原理
1.什么是编译原理编译原理是计算机专业的一门重要专业课,旨在介绍编译程序构造的一般原理和基本方法。内容包括语言和文法、词法分析、语法分析、语法制导翻译、中间代码生成、存储管理、代码优化和目标代码生成。 编译原理是计算机专业设置的一门重要的专业课程。从功能上看,一个编译程序就是一个语言翻译程序。编译:就是将程序语言进行翻译,生成可供用户直接执行的二进制代码,即可执行文件。任务是个比较模...
2016-09-09 22:34:00
271
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人