自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(22)
  • 收藏
  • 关注

转载 Hadoop综合大作业

1.用Hive对爬虫大作业产生的文本文件(或者英文词频统计下载的英文长篇小说)词频统计。 a.开启cd /usr/localcd hive/libstart-all.sh b.查看jps c.将网络爬虫大作业的结果存入txt,并且保存到hdfs里面。 首先需要修改曾经的代码,将爬出来的...

2018-05-19 18:37:00 363

转载 通过hadoop上的hive完成WordCount

1.启动hadoop打开所有命令:start-all.sh2.Hdfs上创建文件夹创建名为PGOne到user/hadoop3.上传文件至hdfs创建和修改508.txt文件,里面尽量多写一下,可写一些重复的内容,以便后面的查重。4.启动Hive打开hiv,不解释5.创建原始文档表这里要注意一下,前面创建...

2018-05-16 16:31:00 157

转载 用mapreduce 处理气象数据集

编写程序求每日最高最低气温,区间最高最低气温气象数据集下载地址为:ftp://ftp.ncdc.noaa.gov/pub/data/noaa按学号后三位下载不同年份月份的数据(例如201506110136号同学,就下载2013年以6开头的数据,看具体数据情况稍有变通)解压数据集,并保存在文本文件中对气象数据格式进行解析...

2018-05-09 21:42:00 129

转载 熟悉常用的HBase操作,编写MapReduce作业

1. 以下关系型数据库中的表和数据,要求将其转换为适合于HBase存储的表并插入数据:学生表(Student)(不包括最后一列)学号(S_No)姓名(S_Name)性别(S_Sex)年龄(S_Age)课程(course)2015001Zhangsanmale23...

2018-05-08 21:16:00 123

转载 爬虫大作业

1.选一个自己感兴趣的主题。2.用python 编写爬虫程序,从网络上爬取相关主题的数据。3.对爬了的数据进行文本分析,生成词云。4.对文本分析结果进行解释说明。5.写一篇完整的博客,描述上述实现过程、遇到的问题及解决办法、数据分析思想及结论。6.最后提交爬取的全部数据、爬虫及数据分析源代码。import requests,jiebafrom bs4 im...

2018-04-30 19:25:00 229

转载 熟悉常用的HDFS操作

编程实现以下指定功能,并利用Hadoop提供的Shell命令完成相同任务:在本地Linux文件系统的“/home/hadoop/”目录下创建一个文件txt,里面可以随意输入一些单词在本地查看文件位置(ls)在本地显示文件内容 cd /usr/local/hadoop touch hzh.txt //此处编辑hzh.txt cat...

2018-04-25 19:11:00 118

转载 数据结构化与保存

任务如下:1. 将新闻的正文内容保存到文本文件。2. 将新闻数据结构化为字典的列表:单条新闻的详情-->字典news一个列表页所有单条新闻汇总-->列表newsls.append(news)所有列表页的所有新闻汇总列表newstotal.extend(newsls)3. 安装pandas,用pandas.DataFrame(newstotal)...

2018-04-11 22:22:00 125

转载 获取全部校园新闻

1.取出一个新闻列表页的全部新闻 包装成函数。2.获取总的新闻篇数,算出新闻总页数。3.获取全部新闻列表页的全部新闻详情。4.找一个自己感兴趣的主题,进行数据爬取,并进行分词分析。不能与其它同学雷同。1-3:import requestsfrom bs4 import BeautifulSoupfrom datetime import datetim...

2018-04-11 16:06:00 73

转载 爬取校园新闻首页的新闻的详情,使用正则表达式,函数抽离

任务如下:1. 用requests库和BeautifulSoup库,爬取校园新闻首页新闻的标题、链接、正文、show-info。2. 分析info字符串,获取每篇新闻的发布时间,作者,来源,摄影等信息。3. 将字符串格式的发布时间转换成datetime类型4.使用正则表达式取得新闻编号5. 生成点击次数的Request URL6. 获取点击次数7. 将456...

2018-04-07 12:38:00 144

转载 网络爬虫基础练习

Posted on2018-03-29 21:54170何强阅读(2) 评论(0)编辑收藏0.可以新建一个用于练习的html文件,在浏览器中打开。1.利用requests.get(url)获取网页页面的html文件import requestsnewsurl='http://news.gzcc.cn/html/xiaoyuanxinwen/'...

2018-03-29 22:00:00 66

转载 中文词频统计

下载一长篇中文文章。从文件读取待分析文本。news = open('gzccnews.txt','r',encoding = 'utf-8')安装与使用jieba进行中文分词。pip install jiebaimport jiebalist(jieba.lcut(news))生成词频统计排序排除语法型词汇,代词、冠词、连词输出词频最大TOP20...

2018-03-28 17:47:00 94

转载 综合练习:英文词频统计

综合练习:英文词频统计下载一首英文的歌词或文章sing = '''i'm just a little bit caught in the middlelife is a maze and love is a riddlei don't know where to gocan't do it alonei've tried but i don't k...

2018-03-21 21:19:00 169

转载 Python字符串、组合数据类型练习

一、Python字符串练习1.http://news.gzcc.cn/html/2017/xiaoyuanxinwen_1027/8443.html取得校园新闻的编号.(这个方法就很多了,一般方法二和方法三用得比较多一点)# 定义字符串s = "http://news.gzcc.cn/html/2017/xiaoyuanxinwen_1027/8443.html"...

2018-03-21 12:53:00 915

转载 Pycharm开发环境设置与熟悉

Pycharm开发环境设置与熟悉。练习基本输入输出:print('你好,{}.'.format(name))uprint(sys.argv)库的使用方法:import ...from ... import ...条件语句: if (abs(pos()))<1: break循环语句:for i i...

2018-03-14 20:01:00 211

转载 熟悉Linux常用命令

cd命令:切换目录(1)切换到目录 /usr/local cd / usr cd / local(2)去到目前的上层目录 cd ..(3)回到自己的主文件夹 cd ls命令:查看文件与目录(4)查看目录/usr下所有的文件 ls / usrmkdir命令:新建新目录(5)进入/tmp目录,创建一个名为a的目录,并查...

2018-03-13 13:31:00 275

转载 对大数据的一些看法

众所周知,如今的时代是大数据和人工智能的时代,那什么是大数据?什么又是人工智能?作为IT界的我们是否应该去多多了解这方面的知识呢?在我看来,即使未来我们不从事这方面的内容,但是我觉得作为IT人才,不仅仅求得是深度,更多的是追求一种广度。比如大学学的计算机网络、操作系统、数据结构、算法分析处理、计算机组成原理等等,即便现在忘得也七七八八,但是未来当我们触及到这个方面的内容的时候,不就会...

2018-03-06 19:52:00 1796

转载 编译原理-递归下降分析法 c程序部分的分析

实验三 语法分析程序实验专业商软2班 姓名黄仲浩学号201506110166一、实验目的编制一个部分文法分析程序。二、实验内容和要求输入:源程序字符串输出:正确或者错误三、实验方法、步骤及结果测试源程序名:递归下降分析.c可执行程序名:递归下降分析.c原理分析及流程图...

2016-12-16 15:57:00 542

转载 关于自动机的相关问题

根据自动机的原理,我参考了一些资料,做了一个简易的c程序实现。#include<stdio.h>#include<string.h>#define MAX 20int n=1;void tackBack(char sh[],int start,int End,int Begain,int Fin);//进行判定操作 int main()...

2016-11-30 00:20:00 93

转载 关于c语言的文法分析问题

<程序> -> <声明> | <程序> <函数><声明> -> #include<stdio.h>|#include<string.h>|............<函数> -> <修饰符> <标识符> <形参> &...

2016-10-28 17:09:00 88

转载 编译原理的实验报告一

实验一 词法分析程序实验专业 商软2班 姓名 黄仲浩学号 201506110166一、实验目的编制一个词法分析程序。二、实验内容和要求输入:源程序字符串输出:二元组(种别,单词符号本身)。三、实验方法、步骤及结果测试源程序名:bianyiyuanli.c可执行程序名:bianyiyuanl...

2016-10-13 22:06:00 1932

转载 词法分析以及文法描述词法规则的己见

一.词法分析程序的功能。 词法分析程序完成的事编译第一阶段的工作。词法分析工作可以使独立的一遍,把字符流的源程序变成单词序列,输出到一个中间文件,这个文件作为语法分析程序的恶输入而继续的编译过程。对字符串表示的源程序从左到右进行扫描和分解根据词法规则,识别出一个一个具有独立意义的单词符号以供语法分析之用。发现词法错误则返回出错信息。二。符号与种别码的对照表以及源程序。...

2016-09-30 15:59:00 601

转载 对于编译原理的看法

今年大二的我刚刚触及到这个知识,一开始觉得这个知识大概就是编译器一类的,想想觉得没有什么作用,软件上都有,但是自从看了网上的资料以及老师的讲解之后,我渐渐改变了我的看法。 在我看来,(编译原理)是计算机专业的一门重要专业课,旨在介绍编译程序构造的一般原理和基本方法。内容包括语言和文法、词法分析、语法分析、语法制导翻译、中间代码生成、存储管理、代码优化和目标代...

2016-09-09 20:41:00 307

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除