- 博客(19)
- 收藏
- 关注
转载 Hadoop综合大作业
1.用Hive对爬虫大作业产生的文本文件(或者英文词频统计下载的英文长篇小说)词频统计。在网上下载英文小说,通过QQ邮箱下载到虚拟机的/home/hadoop/wc首先要启动dfs:检查配置环境:在user/hadoop/上创建文件夹word:上传下载文档到user/hadoop/word文件中:启动hive:在hive数据库创建表 world:...
2018-05-25 21:37:00
128
转载 熟悉常用的HBase操作,编写MapReduce作业
1. 以下关系型数据库中的表和数据,要求将其转换为适合于HBase存储的表并插入数据:学生表(Student)(不包括最后一列)学号(S_No)姓名(S_Name)性别(S_Sex)年龄(S_Age)课程(course)2015001Zhangsanmale...
2018-05-08 21:36:00
104
转载 爬虫大作业
主题:爬取新浪新闻中心的国际新闻页面首先对新浪新闻中心的国际新闻页面进行爬取,获取出第一篇文章标题,时间链接等等,然后进行分析,获取前30个出现次数最多的词语进行排序,最后生成词云。# -*- coding:UTF-8 -*-# -*- author:deng -*-import jiebaimport reimport requestsfrom b...
2018-04-30 22:05:00
123
转载 熟悉常用的HDFS操作
编程实现以下指定功能,并利用Hadoop提供的Shell命令完成相同任务:在本地Linux文件系统的“/home/hadoop/”目录下创建一个文件txt,里面可以随意输入一些单词.在本地查看文件位置(ls)在本地显示文件内容cd /usr/local/hadooptouch linux.txtcat linux.txt使用命令把本地文件...
2018-04-25 21:20:00
97
转载 数据结构化与保存
1. 将新闻的正文内容保存到文本文件。f = open('gzccNews.txt', 'a', encoding='utf-8')f.write(content)f.close()2. 将新闻数据结构化为字典的列表:单条新闻的详情-->字典newsnews = {} news['title'] = soupd.select('...
2018-04-12 21:36:00
94
转载 获取全部校园新闻
1.取出一个新闻列表页的全部新闻 包装成函数。2.获取总的新闻篇数,算出新闻总页数。3.获取全部新闻列表页的全部新闻详情。# -*- coding:UTF-8 -*-# -*- author:deng -*-import requestsfrom bs4 import BeautifulSoupfrom datetime import datetimeimpo...
2018-04-11 21:57:00
91
转载 爬取校园新闻首页的新闻的详情,使用正则表达式,函数抽离
1. 用requests库和BeautifulSoup库,爬取校园新闻首页新闻的标题、链接、正文、show-info。# -*- coding:UTF-8 -*-# -*- author:deng -*-import requestsimport refrom bs4 import BeautifulSoupfrom datetime import datet...
2018-04-09 20:21:00
169
转载 网络爬虫基础练习
练习:这是练习的HTML文件:net.html<!DOCTYPE html><html lang="en"><head> <meta charset="UTF-8"> <title>这是标题!</title></head><body> ...
2018-03-29 20:28:00
90
转载 中文词频统计
下载一长篇中文文章。从文件读取待分析文本。news = open('gzccnews.txt','r',encoding = 'utf-8')安装与使用jieba进行中文分词。pip install jiebaimport jiebalist(jieba.lcut(news))生成词频统计排序排除语法型词汇,代词、冠词、连词输出词频最大TOP20# -*- coding...
2018-03-28 21:55:00
89
转载 综合练习:英文词频统计
# -*- coding:UTF-8 -*-# -*- author:deng -*-news = '''The only problem unconsciously assumed by all Chinese philosophers to be ofany importance is:How shall we enjoy life, and who can best enjoy l...
2018-03-27 01:00:00
133
转载 字符串、组合练习
1.字符串练习:http://news.gzcc.cn/html/2017/xiaoyuanxinwen_1027/8443.html取得校园新闻的编号str="http://news.gzcc.cn/html/2017/xiaoyuanxinwen_1027/8443.html"print(str[-14:-5])https://docs.python...
2018-03-21 20:27:00
208
转载 national flag
# -*- coding:UTF-8 -*-# -*- author:deng -*-import turtleimport mathwindow = turtle.Screen()def draw_polygon(aTurtle, size=50, n=3): # 绘制正多边形 for i in xrange(n): a...
2018-03-15 21:52:00
213
转载 常用的Linux操作
熟悉常用的Linux操作cd命令:切换目录(1) 切换到目录 /usr/local cd/usr/local(2) 去到目前的上层目录 cd..(3) 回到自己的主文件夹 cdls命令:查看文件与目录(4) 查看目录/usr下所有的文件 ls/usrmkdir命令:新建新目录(5) 进入/tmp目录,创...
2018-03-14 12:01:00
92
转载 大数据概述
1.试述大数据对思维方式的重要影响。 随着自然科学的快速发展和高新技术的广泛应用,人们的生活方式和思维方式都受到比较大的冲击。大数据技术的普及,对人类生活中的各个领域都产生着极大的影响。思维方式是一定时代人们的理性认识方式,是按一定结构、方法和程序把思维诸要素结合起来的相对稳定的思维运行样式。人类历史中任何一次科技或者文化的革命都会引领一次全方位的思维方式革新。关于大数据对思维方式...
2018-03-07 16:14:00
114
转载 LL(1)文法
<程序>-><声明列表>|<函数><程序>|ε<声明列表>-><声明>|<声明><声明列表><声明>-> #include < 标识符 . h ><函数>-><修饰符><标识符><形式参数&g...
2016-12-16 15:46:00
133
转载 简单有穷自动机
一、实验目标1、掌握有穷状态自动机的概念;2、掌握有穷状态自动机的存储及表示方法;3、掌握有穷状态自动机与正则式之间的关系。二、实验要求1、输入正规式;2、构造该正规式的有穷状态自动机;3. 以五元组形式输出。三、代码如下:1 #include<iostream> 2 #include<string&g...
2016-12-16 15:33:00
189
转载 简单C语言文法
<程序>→<外部声明>|<程序><外部声明><外部声明>→<函数定义>|<声明><函数定义>→<类型说明><声明符><符合语句><类型说明>→<void>|<char>|<int>|<fl...
2016-11-04 15:04:00
211
转载 词法分析
词法分析: #include<stdio.h>#include<string.h>#define t 10#define num2 11void analyse(FILE *fp,char ch);int main(){ FILE *fp;char ch;if((fp=fopen("demo.txt"...
2016-10-21 15:49:00
111
转载 编译原理 141
什么是编译原理? 编译原理是计算机专业的一门重要专业课,旨在介绍编译程序构造的一般原理和基本方法。也是将程序语言进行翻译,生成可供用户直接执行的二进制代码,即可执行文件。这门课程关注的是编译器方面的产生原理和技术问题,似乎和计算机的基础领域不沾边,可是编译原理却一直作为大学本科的 必修课程,编译原理及技术从本质上来讲就是一个算法问题。学习编译原理有什么好处? 这门课是一门...
2016-09-09 18:42:00
81
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人