- 博客(13)
- 收藏
- 关注
转载 1.用Hive对爬虫大作业产生的文本文件2.用Hive对爬虫大作业产生的csv文件进行数据分析,写一篇博客描述你的分析过程和分析结果。...
1.用Hive对爬虫大作业产生的文本文件(或者英文词频统计下载的英文长篇小说)词频统计。 a.开启cd /usr/localcd hive/libstart-all.shb.查看Jpsc.将网络爬虫大作业的结果存入txt,并且保存到hdfs里面。这是爬虫爬出来的数据#新建路径/webinpt,蒋其存入/us...
2018-06-09 12:47:00
502
转载 Hadoop综合大作业加上以前漏掉的作业
1.启动hadoop 2.Hdfs上创建文件夹并查看上传英文词频统计文本至hdfs启动Hive导入文件内容到表docs并查看进行词频统计,结果放在表t_word_count2里查看统计结果hive基本操作与应用通过hadoop上的hive完成WordCount启动hadoopssh local...
2018-05-25 10:24:00
121
转载 爬虫大作业
f = open("C:/Users/ZD/PycharmProjects/test/test.txt", 'w+', encoding='utf8')import jiebaimport requestsfrom bs4 import BeautifulSoupdef songlist(url): res = requests.get(url) res.encoding =...
2018-05-23 15:33:00
106
转载 获取全部校园新闻
1.取出一个新闻列表页的全部新闻 包装成函数。2.获取总的新闻篇数,算出新闻总页数。3.获取全部新闻列表页的全部新闻详情。4.找一个自己感兴趣的主题,进行数据爬取,并进行分词分析。不能与其它同学雷同。import requestsimport reurl = "http://news.gzcc.cn/html/xiaoyuanxinwen/"listnewurl ...
2018-04-11 08:22:00
94
转载 爬取校园新闻首页的新闻
import requestsfrom bs4 import BeautifulSoupurl="http://news.gzcc.cn/html/xiaoyuanxinwen/"res=requests.get(url)res.encoding="utf-8"soup=BeautifulSoup(res.text,'html.parser')# for news in soup...
2018-04-03 11:25:00
90
转载 网络爬虫基础练习
0.可以新建一个用于练习的html文件,在浏览器中打开。1.利用requests.get(url)获取网页页面的html文件import requestsnewsurl='http://news.gzcc.cn/html/xiaoyuanxinwen/'res = requests.get(newsurl) #返回response对象res.encoding='...
2018-04-03 11:22:00
143
转载 英文词频统计
string='''Twinkle, twinkle, little star. Twinkle, twinkle, little star, how I wonder what you are. Up above the world so high, like a diamond in the sky. Twinkle, twinkle, little star, how I wond...
2018-03-27 22:41:00
130
转载 字符串练习
http://news.gzcc.cn/html/2017/xiaoyuanxinwen_1027/8443.html取得校园新闻的编号>>> s="http://news.gzcc.cn/html/2017/xiaoyuanxinwen_1027/8443.html">>> s[45:54]'1027/8443'https://do...
2018-03-21 15:51:00
83
转载 熟悉常用的Linux操作
请按要求上机实践如下linux基本命令。cd命令:切换目录(1)切换到目录 /usr/localcd /usr/local(2)去到目前的上层目录cd..(3)回到自己的主文件夹cd~ls命令:查看文件与目录(4)查看目录/usr下所有的文件ls /usrmkdir命令:新建新目录(5)进入/tmp目录,创建一个名为a的目录,并查...
2018-03-13 11:27:00
221
转载 大数据概述
1.试述大数据对思维方式的重要影响。 近年来大数据技术的快速发展深刻改变了我们的生活、工作和思维方式。大数据研究专家舍恩伯格指出,大数据时代,人们对待数据的思维方式会发生如下三个变化:第一,人们处理的数据从样本数据变成全部数据;第二,由于是全样本数据,人们不得不接受数据的混杂性,而放弃对精确性的追求;第三,人类通过对大数据的处理,放弃对因果关系的渴求,转而关注相关关系。事...
2018-03-06 11:32:00
123
转载 简化版c语言文法
(1)<程序>::=开始<文件头>|<函数>结束(2)<文件头>::=<库函数>(3)<函数>::=<库函数>|<用户自定义函数>|<函数主体>(4)<库函数>::=<#include<stdio.h>>|<#d...
2016-10-29 09:21:00
103
转载 词法分析
实验一、词法分析实验专业 商软二班 姓名 罗肖凤 学号 201504040262一、 实验目的通过设计编制调试一个具体的词法分析程序,加深对词法分析原理的理解。并掌握在对程序设计语言进行扫描过程中将其分解为各类单词的词法分析方法。 二、 实验内容和要求(1) 输入:源程序字符串。(2) 输...
2016-10-17 19:58:00
144
转载 编译1
一.编译原理就是什么?1、主要内容包括词法分析、语法分析、语法树构造、语义分析、中间代码生成、代码优化、目标代码生成等主要内容。2、在寄存器分配中将会使用到贪心算法,死代码消除中将会使用到图论算法,数据流分析中使用到的Fixed-Point Algorithm,词法分析与语法分析中使用到有限状态机与递归下降这样的重要思想。3、从源语言提取需要的信息;把源语言翻译成目标语言;自...
2016-09-09 22:08:00
84
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人