- 博客(20)
- 收藏
- 关注
转载 Hadoop综合大作业
1.用Hive对爬虫大作业产生的文本文件(或者英文词频统计下载的英文长篇小说)进行词频统计。先下载英语长篇文章到wc文件下上传5000-8文件到hdfs进入hive,创建新表在hdfs中的5000-8.txt导入到english表中查看该表中的信息进行词频统计存放在english_count表中...
2018-05-23 23:18:00 149
转载 hive基本操作与应用
通过hadoop上的hive完成WordCount启动hadoopHdfs上创建文件夹上传文件至hdfs启动Hive创建原始文档表导入文件内容到表docs并查看用HQL进行词频统计,结果放在表zjc_count里查看统计结果转载于:https://www.cnblogs.com/04JC/p/9047724.h...
2018-05-16 19:30:00 116
转载 理解MapReduce计算构架
用Python编写WordCount程序任务程序WordCount输入一个包含大量单词的文本文件输出文件中每个单词及其出现次数(频数),并按照单词字母顺序排序,每个单词和其频数占一行,单词和频数之间有间隔编写map函数,reduce函数...
2018-05-10 12:31:00 209
转载 熟悉HBase基本操作
1. 以下关系型数据库中的表和数据,要求将其转换为适合于HBase存储的表并插入数据:学生表(Student)(不包括最后一列)学号(S_No)姓名(S_Name)性别(S_Sex)年龄(S_Age)课程(course)2015001Zhangsanmale23...
2018-05-09 22:39:00 189
转载 熟悉常用的HDFS操作
一、Hadoop提供的Shell命令完成相同任务:在本地Linux文件系统的“/home/hadoop/”目录下创建一个文件txt,里面可以随意输入一些单词.touch zjc.txtgedit zjc.txt在本地查看文件位置(ls)在本地显示文件内容使用命令把本地文件系统中的“txt”上传到HDFS中的当前用户目录的input目录下。查看h...
2018-04-27 20:58:00 158
转载 爬虫大作业
爬取豌豆荚的安卓软件信息:1、主要目的 爬取豌豆荚的软件信息可以了解到什么样的软件是当前最热门的,什么软件是最好的,使用率、好评率是最受欢迎的,人们可以利用这些数据来进行性对性的操作以及分析。作为信息爆炸、软件横行的时代,我们应当对软件的信息由一个更好、更高的了解,也为我们以后的软件的开发作出相对应的路线。所以说爬取安卓软件信息数据的必要性会更加的需要。2、实现准备阶段...
2018-04-22 13:52:00 590
转载 数据结构化与保存
1. 将新闻的正文内容保存到文本文件。def getcontent(content): f = open('gzccnew.txt', 'a', encoding='utf-8') f.write(content) f.close() 2. 将新闻数据结构化为字典的列表:单条新闻的详情-->字典news一...
2018-04-18 19:53:00 129
转载 使用正则表达式,取得点击次数,函数抽离
学会使用正则表达式1. 用正则表达式判定邮箱是否输入正确。r='^(\w)+(\.\w+)*@(\w)+((\.\w{2,3}){1,3})$'e='67890222@qq.com'if re.match(r,e): print(re.match(r,e).group(0))else: print('非邮箱格式!') 2...
2018-04-10 22:04:00 102
转载 爬取校园新闻首页的新闻
1. 用requests库和BeautifulSoup库,爬取校园新闻首页新闻的标题、链接、正文。import requestsfrom bs4 import BeautifulSoupurl='http://news.gzcc.cn/html/xiaoyuanxinwen/'res=requests.get(url)res.encoding='utf-8's...
2018-04-03 20:04:00 130
转载 网络爬虫基础练习
import requestsurl='http://localhost:63342/zjc/news.html?_ijt=p2l5n0shp613m01ad0jlpobino'res=requests.get(url)res.encoding='utf-8'from bs4 import BeautifulSoupsoup=BeautifulSoup(res...
2018-03-29 20:06:00 206
转载 综合练习:词频统计
综合练习词频统计预处理下载一首英文的歌词或文章将所有,.?!’:等分隔符全部替换为空格将所有大写转换为小写生成单词列表生成词频统计排序排除语法型词汇,代词、冠词、连词输出词频最大TOP20将分析对象存为utf-8编码的文件,通过文件读取的方式获得词频分析内容。f=open('news.txt','r')s=f.read()f.cl...
2018-03-27 17:02:00 143
转载 组合数据类型综合练习
1.组合数据类型练习:分别定义字符串,列表,元组,字典,集合,并进行遍历。字符串:列表:元组:字典:集合:总结列表,元组,字典,集合的联系与区别。 列表是一个使用方括号括起来的有序元素集合,元组和列表在结构上没有什么区别,唯一的差异在于元组是只读的,不能修改,而列表可修改;集合是建立一系列无序的,不重复的元素,而字典是定义了键和值之间的一一对应关系...
2018-03-22 18:34:00 174
转载 熟悉常用的Linux操作
请按要求上机实践如下linux基本命令。cd命令:切换目录(1)切换到目录 /usr/local cd /usr/local(2)去到目前的上层目录cd ..(3)回到自己的主文件夹cd ~ls命令:查看文件与目录(4)查看目录/usr下所有的文件cd /usrls -almkdir命令:新建新目录(5)进入/tmp目录,创建一个名为a的目录,并查看有多少目录存在cd /tm...
2018-03-13 17:01:00 140
转载 1.大数据概述
1.试述大数据对思维方式的重要影响。 大数据时代最大的转变就是思维方式的3种转变:全样而非抽样、效率而非精确、相关而非因果。大数据思维是一种容错思维、是一种相关思维、是一种智能思维。大数据思维把人们从旧的发展观、价值观中解放出来,复杂技术的涌现和科技进步促使人们开始从大数据思维视角重新审视世界,从而获取正确理解世界的角度性工具。大数据思维是客观存在,大数据思维是新的思维观。 大数...
2018-03-06 19:18:00 293
转载 C程序语法(无左递归)
C程序语法(无左递归)<程序> —〉 <外部声明> | <函数定义><外部声明> —〉<头文件> | <变量> | <结构体><头文件> —〉 #include<文件名><文件名> —〉 stdio.h丨stdlib.h丨string.h<...
2016-12-02 20:48:00 267
转载 文法规则
<程序> —〉 <外部声明> | <函数定义><外部声明> —〉<头文件> | <变量> | <结构体><头文件> —〉 #include<文件名><文件名> —〉 stdio.h丨stdlib.h丨string.h<结构体> —〉 <...
2016-10-27 20:50:00 498
转载 实验一词法分析报告
实验一、词法分析实验专业:商业软件工程三班 姓名:郑锦诚 学号:201506110198一、实验目的词法分析是编译的第一阶段,它的主要任务是从左至右逐个字符地对源程序进行扫描,产生一个个单词序列,用于语法分析。二、实验内容和要求让用户输入一段程序段,然后逐个读取字符,将它们拼在一起,获取一个有意义的单词或符号,识别出单词或符号种别以及自身的值,并...
2016-10-13 11:12:00 234
转载 词法分析2
#include <stdio.h> #include <string.h>#define max 100 char a[max],b[8],ch; int syn,p,m,n,sum; char word[][6]={"begin","if","then","while","do","end"}; void mor()...
2016-10-07 21:44:00 133
转载 词法分析程序
词法分析程序的功能:先让用户输入一段字符串程序段,然后利用词法分析程序进行词法分析,识别出关键字、标识符、常数、运算符、界符,分别输出单词自身的值以及单词种别。符号与种别码对照表: 单词符号种别码单词符号种别码begin1:17if2...
2016-09-30 20:22:00 163
转载 我对编译原理的理解
1.编译原理是什么?在我看来这是在计算机学科中重要的一门专业课,这对编译器方面产生原理以及技术能力,虽说是一门非常难学的,但我知道,只要有心想学,就不怕学不会。2.为什么要学这门编译原理?这可以让我们更好的全面掌握计算机的知识。3.学习编译原理有什么好处?这不仅可以开阔我们的思维,而且对以后的工作有一定的帮助。转载于:https://www.cnblogs.com/04JC/p/58...
2016-09-09 12:59:00 380
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人