![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 70
lger_Pro
这个作者很懒,什么都没留下…
展开
-
课程作业——大数据概述
1.大数据概述 大数据按照个人理解就是一个’大’字为主,以大量的数据来提供有用的数据资源。通过各种方式或者方法分析、统计数据得到有价值的信息。比较官方的说法可以查看百度百科 2.大数据对思维方式的重要影响 对于我们人类而言,我们个人产生的数据集可供大数据平台分析出一些发展的趋势。于是乎,就有了连自己都不知道喜欢什么结果计算机就给了我们推荐。因此,大数据的作用是在分析出有价值的信息后解决一定的...原创 2018-03-07 16:13:45 · 1737 阅读 · 0 评论 -
课程作业——获取全部校园新闻
作业要求: 取出一个新闻列表页的全部新闻 包装成函数。 获取总的新闻篇数,算出新闻总页数。 获取全部新闻列表页的全部新闻详情。 找一个自己感兴趣的主题,进行数据爬取,并进行分词分析。不能与其它同学雷同。 前三个要求代码如下: import requests from bs4 import BeautifulSoup from datetime import datetime impo...原创 2018-04-11 14:02:27 · 505 阅读 · 0 评论 -
课程作业——数据结构化与保存
1.将新闻的正文内容保存到文本文件 2.将新闻数据结构化为字典的列表: 单条新闻的详情–>字典news 一个列表页所有单条新闻汇总–>列表newsls.append(news) 所有列表页的所有新闻汇总列表newstotal.extend(newsls) 3.安装pandas,用pandas.DataFrame(newstotal),创建一个DataFrame对象df. 4...原创 2018-04-12 18:22:04 · 530 阅读 · 0 评论 -
熟悉常用的HBase操作,编写MapReduce作业
原创 2018-05-08 21:42:03 · 999 阅读 · 0 评论 -
HDSF文件操作
在本地Linux文件系统的“/home/hadoop/”目录下创建一个文件txt,里面可以随意输入一些单词. 在本地查看文件位置(ls) 在本地显示文件内容 cd /usr/local/hadoop touch test.txt //此处编辑test.txt cat test.txt 使用命令把本地文件系统中的“txt”上传到HDFS中的当前用户目录...原创 2018-04-24 22:00:05 · 912 阅读 · 0 评论 -
用mapreduce 处理气象数据集
用mapreduce 处理气象数据集 编写程序求每日最高最低气温,区间最高最低气温 气象数据集下载地址为:ftp://ftp.ncdc.noaa.gov/pub/data/noaa - 按学号后三位下载不同年份月份的数据(例如201506110136号同学,就下载2013年以6开头的数据,看具体数据情况稍有变通) - 解压数据集,并保存在文本文件中 - 对气象数据格式进行解析 - 编写...原创 2018-05-09 20:52:11 · 2079 阅读 · 0 评论 -
Hadoop综合大作业
Hadoop综合大作业 要求: 用Hive对爬虫大作业产生的文本文件(或者英文词频统计下载的英文长篇小说)词频统计。 用Hive对爬虫大作业产生的csv文件进行数据分析,写一篇博客描述你的分析过程和分析结果。 ...原创 2018-05-24 22:30:57 · 1038 阅读 · 0 评论