- 博客(18)
- 收藏
- 关注
转载 Hadoop综合大作业
Hadoop综合大作业 要求:1.用Hive对爬虫大作业产生的文本文件(或者英文词频统计下载的英文长篇小说)进行词频统计。开启功能: 1、启动hadoop2、Hdfs上创建文件夹并查看 3、上传英文词频统计文本至hdfs 4、启动Hive 5、导入文件内容到表docs并查看 6、进行词频统计 ...
2018-05-28 20:39:00 99
转载 理解MapReduce
1.用Python编写WordCount程序并提交任务程序WordCount输入一个包含大量单词的文本文件输出文件中每个单词及其出现次数(频数),并按照单词字母顺序排序,每个单词和其频数占一行,单词和频数之间有间隔编写map函数,reduce函数将其权限作出...
2018-05-10 21:57:00 105
转载 熟悉常用的HBase操作
1. 以下关系型数据库中的表和数据,要求将其转换为适合于HBase存储的表并插入数据:学生表(Student)(不包括最后一列)学号(S_No)姓名(S_Name)性别(S_Sex)年龄(S_Age)课程(course)2015001Zhangsanmale23...
2018-05-04 21:51:00 101
转载 爬虫大作业
利用Python爬取微博数据生成词云图import refrom lxml import etreef = open('info.txt' ,'rb').read().decode('utf-8').replace('\\','')repost = re.findall('<div class="WB_text W_f14" node-type="...
2018-05-03 22:00:00 62
转载 熟悉常用的HDFS操作
一、Hadoop提供的Shell命令完成相同任务:在本地Linux文件系统的“/home/hadoop/”目录下创建一个文件txt,里面可以随意输入一些单词.在本地查看文件位置(ls)在本地显示文件内容cd /usr/local/hadoop touch hello.txt cat hello.txt 使用命令...
2018-04-27 19:50:00 77
转载 数据结构化与保存
1. 将新闻的正文内容保存到文本文件。def writeNewsDetail(content): f=open('gzcc.txt','a',encoding='utf-8') f.write(content) f.close() 2. 将新闻数据结构化为字典的列表:单条新闻的详情-->字典news一个列表页所有单...
2018-04-17 21:43:00 71
转载 使用正则表达式,取得点击次数,函数抽离
1. 用正则表达式判定邮箱是否输入正确。import re def validateEmail(email): if len(email) > 7: if re.match("^.+\\@(\\[?)[a-zA-Z0-9\\-\\.]+\\.([a-zA-Z]{2,3}|[0-9]{1,3})(\\]?)$", email) != ...
2018-04-11 20:04:00 66
转载 爬取校园新闻首页的新闻
1. 用requests库和BeautifulSoup库,爬取校园新闻首页新闻的标题、链接、正文。import requestsfrom bs4 import BeautifulSoupurl='http://news.gzcc.cn/html/xiaoyuanxinwen/'res=requests.get(url)res.encoding='utf-8'...
2018-04-02 22:32:00 52
转载 新操作
import requestsfrom bs4 import BeautifulSoupurl="http://news.gzcc.cn/html/xiaoyuanxinwen/"res=requests.get(url)res.encoding="utf-8"soup=BeautifulSoup(res.text,'html.parser')# fo...
2018-04-02 22:02:00 62
转载 网络爬虫基础练习
import requestsnewsurl = 'http://localhost:63342/bd/aaa.html?_ijt=7pd1hi6n7j1ue90de4jivbr31k'res = requests.get(newsurl) # 返回response对象res.encoding = 'utf-8'print(res.text)from bs4 i...
2018-03-29 21:30:00 40
转载 综合练习:词频统计=
str-text='''Today, as the development of technology,people work with efficiency and some of the traditional hand-made work have been abandoned.For example, the paper cutting, which is the...
2018-03-26 11:58:00 76
转载 组合数据类型
1.字符串a = 'examples'print(a)for i in a: print(i)2.列表s = 'this is a string examples'ls = s.split()print(ls)for i in ls: print(i)3.元组tup = ('Nacy', 'Andy', 56);print(tup)for i in tup: ...
2018-03-22 21:51:00 149
转载 熟悉常用的Linux操作
请按要求上机实践如下linux基本命令。cd命令:切换目录(1)切换到目录 /usr/local su cd /usr/local(2)去到目前的上层目录 cd ..(3)回到自己的主文件夹 cd ~ls命令:查看文件与目录 ls(4)查看目录/usr下所有的文件 cd /usr ls -amkdir...
2018-03-12 23:08:00 438
转载 关于互联网下的大数据及大数据对人的影响
<一>大数据概述 在第三次浪潮的革命来临后,“大数据”一词从原本陌生的专业领域一跃进入公众眼帘,并作为时髦的热词写入各级政府工作报告中。它所掀起新的数据技术革命,正深刻地改变着我们这个时代的生产、工作和生活样式,并推动着人类认识、理解世界的方式转变。为此,必须全面准确把握大数据所揭示的深刻内涵及其走势,积极适应大数据风暴带来的思维方式的转变及观念变革。 数据(d...
2018-03-05 11:36:00 678
转载 LL(1)文法
文法如下:<program>-><external_declaration> | <program> <external_declaration><external_declaration> -><function_definition> | <declaration><fu...
2016-12-07 00:22:00 91
转载 C语言文法
<程序>::=<分程序>{<分程序>}<分程序>::=<标识符>’(‘<变量说明部分>{<变量说明部分>}’)’<函数体><变量说明部分>::=int<标识符>{<标识符>}<函数体>::=’{’[<变量说明部分>;]&l...
2016-10-28 17:45:00 143
转载 实验 词法分析器
实验一、词法分析实验商业软件工程专业 姓名:张木贵 学号:201505060365一.实验目的 通过设计编制调试一个具体的词法分析程序,加深对词法分析原理的理解。并掌握在对程序设计语言源程序进行扫描过程中将其分解为各类单词的词法分析方法。二、实验内容和要求 1.根据状态转换图直接编程编写一个词法分析程序,它从左到右逐个字符的对源...
2016-10-20 22:13:00 247
转载 本人对编译原理的看法
(1)什么是编译原理: 编译原理是计算机专业的一门重要专业课,旨在介绍编译程序构造的一般原理和基本方法。内容包括语言和文法、词法分析、语法分析、语法制导翻译、中间代码生成、存储管理、代码优化和目标代码生成。 编译原理是计算机专业设置的一门重要的专业课程。虽然只有少数人从事编译方面的工作,但是这门课在理论、技术、方法上都对学生提供了系统而有效的训练,有利于提高软件人员的素质和能力。...
2016-09-11 21:00:00 186
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人