![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 74
涤生(bluez)
数据科学家=程序猿+艺术家+会讲故事的人+统计学家
展开
-
大数据Day01-Linux基础知识总结
ctrl+alt:切换光标cd 切换目录 / 根目录pwd 查看当前目录ls 查看当前目录下所有文件跟文件夹 -l 查看详细信息 -a 查看隐藏文件clear 清屏(ctrl+l)cd ..回到上一层目录Table键的使用(q旁边的键tab)1. 自动补全命令或目录2. 在某个目录下只有一个目录的时候可以不用输入首字母直接...原创 2018-12-03 19:53:46 · 135 阅读 · 1 评论 -
logstach安装笔记
https://www.elastic.co/guide/en/logstash/current/index.html首先下载logstash,上传到服务器logstash是用JRuby语言开发的,所以要安装JDK解压:tar -zxvf logstash-2.3.1.tar.gz -C /bigdata/启动:bin/logstash -e 'input { stdin {} ...原创 2019-03-28 17:29:03 · 196 阅读 · 0 评论 -
Elasticsearch集群安装笔记
http://www.elastic.co/guide/en/elasticsearch/reference/current/setup-configuration.htmlhttps://github.com/elastic/elasticsearch###【在多台机器上执行下面的命令】####es启动时需要使用非root用户,所以创建一个bigdata用户:useradd bigdat...原创 2019-03-28 17:30:11 · 101 阅读 · 0 评论 -
02Linux基础命令
Linux基础命令文章目录Linux基础命令本节任务教学目标教学内容一、Linux概述1. 主要特点2. 文件系统目录二、Linux命令1. 语法格式2. 内部命令3. 外部命令4. 帮助命令5. 查看历史与命令补全三、目录操作1. 相关符号2. 文件类型3. 创建操作4. 复制移动5. 删除6. 查看7. 搜索查找四、关机重启本节任务认识Linux熟悉Linux操作系统教学目标掌握L...原创 2019-03-28 17:40:36 · 122 阅读 · 0 评论 -
Linux 安装+基本命令教案
一.Linux介绍Linux是一套免费使用和自由传播的类Unix统操作系,是一个基于POSIX和UNIX的多户用、多任务、支持多线程和多CPU的作系操统。它能运行主要的UNIX工具软件、应用程序和网络协议。它支持32位和64位硬件。Linux继承了Unix以网络为核心的设计思想,是一个性能稳定的多用户网络操作系统。Linux操作系统诞生于1991 年10 月5 日(这是第一次正式向外公布时...原创 2019-03-28 18:00:17 · 954 阅读 · 0 评论 -
花椒直播如何用数据思维驱动业务
文章有点乱,是看花椒产品运营总监分享时候简单写的东西。有部分东西遗漏。未整理完整。有需求的可以私下找我,在整理。谢谢观看数据思维定义:通过数据思维把业务问题,转化为【数据分析问题】,通过数据的分析和抽样,找到问题的根源;找准业务的【三级指标】,通过数据指标驱动业务,从而有效和系统的解决问题。如何提升视频规模?业务问题-数据问题1.提升视频规模---提升每周新增视频数量2.提升优...原创 2019-04-20 20:52:05 · 264 阅读 · 0 评论 -
MapReduce实现共同好友推荐
package com.qianfeng.friendrecommendation;import java.io.IOException;import java.util.Arrays;import java.util.HashSet;import java.util.Set;import org.apache.hadoop.conf.Configuration;import o...原创 2019-04-23 11:47:44 · 793 阅读 · 0 评论 -
MapReduce基于物品的协同过滤算法实现电影推荐系统
项目源码见本人上传资源文件中##MapReduce实现电影推荐系统 ###案例分析互联网某电影点评网站,主要产品包括 电影介绍 电影排行 网友对电影打分 网友影评 影讯&购票 用户在看|想看|看过的电影 猜你喜欢(推荐) 利用用户对电影的打分表来给用户推荐电影,用户打分表包括以下字段 userID--用户ID号 itemID--电影ID号 ...原创 2019-04-23 11:50:18 · 3264 阅读 · 2 评论 -
大众点评探索性数据分析
探索性分析数据是3W大众点评八大热门糖水店的评论,包含字段:顾客id、评论时间、评分、评论内容、口味、环境、服务、店铺ID#引入库import pandas as pdfrom matplotlib import pyplot as pltimport pymysqlimport seaborn as snsfrom wordcloud import WordCloud, STOPW...原创 2019-04-30 11:26:46 · 1817 阅读 · 0 评论 -
文本挖掘&情感分析
大众点评评价情感分析~先上结果:糖水店的评论文本模型预测的情感评分‘糖水味道不错,滑而不腻,赞一个,下次还会来’0.91‘味道一般,没啥特点’0.52‘排队老半天,环境很差,味道一般般’0.05模型的效果还可以的样子,yeah~接下来我们好好讲讲怎么做的哈,我们通过爬虫爬取了大众点评广州8家最热门糖水店的3W条评论信息以及评分作为训练数据,前面的分析...原创 2019-04-30 11:33:40 · 9303 阅读 · 7 评论 -
Hadoop平台及组件部署管理
1-5天参考视频链接https://pan.baidu.com/s/1ycgK24KrVS-kgluFUrUgmA提取码:3zal1-5天笔记包含Hadoop全分布式部署+Hadoop伪分布式部署+Hive组件部署 参考本人博客:大数据day01,day02,day03,day04,day05Hadoop HA部署:参考http://www.codingke.com/v/5354-...原创 2019-05-27 09:44:42 · 1220 阅读 · 0 评论 -
交通运输数据采集+数据清洗与分析+数据可视化
1.需求:1.1 数据采集一、 数据源 1 1(交通运输)航空出行由于它的快捷便利,已经被越来越多的人喜欢,某航空公司通过多年运营,积累了大量会员档案和乘坐航班信息,为对客户进行分群,明确价值客户群体,将有限的营销资源集中于高价值客户,实现企业利润最大化。为此,该航空公司聘请“H3CU”大数据分析公司完成此项目。由于会员信息属于公司机密数据,该航空公司将数据脱敏后以 csv 文件...原创 2019-05-27 10:02:20 · 9126 阅读 · 12 评论 -
招聘数据采集+数据清洗与分析+数据可视化
1.需求:1.1 数据采集1、 网站解析,利用 chrome 查看网页源码,分析招聘网站网页结构。1) “检查”招聘网站,在网页中右键点击检查,或者 F12 快捷键,进入如下图的查看元素页面;(示例图 1)2) 检查网站:点击 Network、勾选 Preserve log、点击 Doc、点击清理按钮、刷新页面、点击 Response,在 Response 查看所需内容。(...原创 2019-05-27 10:23:13 · 9540 阅读 · 5 评论 -
hadoop平台+低保数据采集+分析+可视化
1. 需求:1.1 背景描述随着中国经济的迅速发展,广大人民群众的收入也在不断提高,但是仍有一部分人群需要在经济上获得帮助,每月领取城市居民最低生活保障,为了更好的实现精准扶贫,你所在的小组需要通过给出的“某市低保人群信息表”,通过采集其中低保人口收入,低保人口中失业人数,视力或听力残疾人数等信息,分析各地区低保人群数量,人均收入情况,近几年收入总体情况等信息,为实现精准扶贫给予...原创 2019-05-27 10:36:05 · 2560 阅读 · 2 评论 -
招聘数据采集+Hive数据分析+数据可视化
1.需求背景描述近年来随着IT产业的快速发展,全国各地对IT 类的人才需求数量也在不断增多,“XHS集团”为了明确今后IT产业人才培养方向,在多个省份进行 IT公司岗位情况调研分析。你所在的小组将承担模拟调研分析的任务,通过在招聘网站进行招聘信息的爬取,获取到公司名称、工作地点、岗位名称、招聘要求、招聘人数等信息,并通过数据的清洗和分析,最终分析出当前IT产业热门岗位、大数据相关岗...原创 2019-05-27 10:42:33 · 6833 阅读 · 4 评论 -
智联招聘数据Hbase数据分析+可视化
需求:背景描述近年来随着IT产业的加速发展,全国各地对IT 类的人才需求也越来越多,“XHS 集团”为了明确公司在各区域的发展布局,在多个省份进行IT公司岗位情况调研分析。你所在的小组将承担模拟调研分析的任务,通过在招聘网站进行招聘信息的爬取,获取到公司名称、工作地点、岗位名称、招聘要求、招聘人数等信息,并通过数据的清洗和分析,最终分析出各地区热门岗位招聘人数,各地区平均薪资的差异...原创 2019-05-27 10:47:39 · 2280 阅读 · 3 评论 -
kafka详解
1、Kafka是什么(了解)在流式计算中,Kafka一般用来缓存数据,Storm通过消费Kafka的数据进行计算。KAFKA + STORM +REDISApache Kafka是一个开源消息系统,由Scala写成。是由Apache软件基金会开发的一个开源消息系统项目。 Kafka最初是由LinkedIn开发,并于2011年初开源。2012年10月从Apache Inc...原创 2019-03-28 17:17:05 · 354 阅读 · 0 评论 -
05Linux的shell编程
Linux的shell编程文章目录Linux的shell编程本节任务教学目标教学内容一、shell概述二、基础语法三、特殊符号及传参本节任务shell编程基本语法脚本传参教学目标了解shell文件格式了解shell基础语法掌握shell传参掌握shell运行教学内容一、shell概述既是一种脚本编程语言,也是一个连接内核和用户的软件,shell脚本一般以.sh结尾...原创 2019-04-01 11:40:29 · 115 阅读 · 0 评论 -
04Linux软件安装
Linux软件安装文章目录Linux软件安装本节任务教学目标教学内容一、磁盘分区1. fdisk工具2. parted工具二、设备挂载1. 常见文件系统2. 分区格式化3. 硬件设备挂载4. 媒体设备挂载三、软件安装1. 压缩包安装2. 编译安装3. rpm安装4. yum源配置本节任务磁盘分区与挂载Linux下软件安装教学目标磁盘分区工具分区格式化分区挂载压缩包安装编译安装...原创 2019-04-01 11:39:49 · 131 阅读 · 0 评论 -
大数据Day02-无密登录
拓展:手动配置IP:sudo vi /etc/sysconfig/network-scripts/ifcfg-ens33 BOOTPROTO="static"dhcp--->staticIPADDR=10.37.64.250NETMASK=255.255.255.0GETWAY=10.37.64.1DNS=10.1.1.9VM替代软件VirtualBox Pa...原创 2018-12-03 19:57:46 · 136 阅读 · 0 评论 -
大数据Day03-集群搭建
文件权限:- rw- r-- r-- 第一字母: d 文件夹 - 普通文件 第二三四个字母:当前用户对该文件权限 r:是否可读 w:是否可写 x:是否可执行 第五六七个字母:当前用户组对该文件权限 r:是否可读 w:是否可写 x:是否可执行...原创 2018-12-03 20:00:06 · 96 阅读 · 0 评论 -
大数据Day04-单机版跟伪分布式搭建
单机版:1:测试单机版的MapReduce任务Master:cd /opt/mkdir input cp hadoop-2.6.4/etc/hadoop/*.xml input/hadoop jar hadoop-2.7.2/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar grep input/ output 'd...原创 2018-12-03 20:04:25 · 170 阅读 · 0 评论 -
大数据Day05-mysql安装与Hive安装
1.CentOS7安装Mysql:cd /opt/sudo yum install wgetwget http://dev.mysql.com/get/mysql-community-release-el7-5.noarch.rpmrpm -ivh mysql-community-release-el7-5.noarch.rpmsudo yum install mysql-communi...原创 2018-12-03 20:07:34 · 167 阅读 · 0 评论 -
Spark自定义二次排序
spark自定义二次排序实现方式一package com.qf.gp1707.day06import org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}object MySort {// 第一种排序 implicit val girlOrdering = new Ordering...原创 2019-03-12 15:32:44 · 188 阅读 · 0 评论 -
利用Spark求区域用户访问量(每个省的访问量)
package com.qf.gp1707.day06import java.sql.{Connection, Date, DriverManager, PreparedStatement}import org.apache.spark.broadcast.Broadcastimport org.apache.spark.rdd.RDDimport org.apache.spark.{...原创 2019-03-12 15:39:17 · 1042 阅读 · 0 评论 -
spark简单算子练习
package com.qf.gp1707.day06import org.apache.spark.{SparkConf, SparkContext}object SparkRDDTest { def main(args: Array[String]): Unit = { val conf=new SparkConf().setAppName("SparkRDDTest")...原创 2019-03-12 15:56:26 · 299 阅读 · 0 评论 -
Spark实现在一定时间范围内 求用户在所有基站(lac)停留的时长 再取top2
package com.qf.gp1707.day06import org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}/** * 需求:在一定时间范围内 求用户在所有基站(lac)停留的时长 再取top2 * 1.用户分别在所有基站停留的各个总时长 * 2.把经纬度信息joi...原创 2019-03-12 16:00:52 · 744 阅读 · 0 评论 -
spark程序入门
package com.qf.gp1707.day06import org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}object SparkWC { def main(args: Array[String]): Unit = { //配置信息类 val conf: Sp...原创 2019-03-12 16:23:59 · 154 阅读 · 0 评论 -
为什么要做checkpoint
为什么要做checkpoint?1.运行出的中间结果往往很重要,所以为了保证数据的安全性,要checkpoint2.最好把checkpoint到hdfs中,这样便于该集群所有的节点访问到3.在checkpoint之前最好先cache一下,这样先把数据放到缓存中。便于运行任务的调用,也便于在checkpoint的时候直接从缓存拿到数据在什么时候做checkpoint?在发生...原创 2019-03-12 16:56:10 · 363 阅读 · 0 评论 -
spark之DataFrame、DataSet、RDD的区别
RDD(弹性分布式数据集)RDD是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合,RDD是Spark Core的底层核心,Spark则是这个抽象方法的实现DataFrame上图直观地体现了DataFrame和RDD的区别。左侧的RDD[Person]虽然以Person为类型参数,但Spark框架本身不了解 Person类的内部结构。而右...转载 2019-03-12 17:26:50 · 164 阅读 · 2 评论 -
Redis详解
1.大纲redis介绍 redis安装(重点) redis客户端 redis数据类型(重点) redis持久化 redis主从复制 redis集群(重点) redis集群的连接 redis集群的jedis连接(重点)2.redis介绍2.1什么是NoSql 为了解决高并发、高可扩展、高可用、大数据存储问题而产生的数据库解决方案,就是NoSql数据...原创 2019-03-26 16:25:02 · 480 阅读 · 1 评论 -
大数据时代
第一节、大数据概述一、大数据1. 基本概念2. 应用场景二、云计算1. 云的概念2. 云计算应用三、分布式系统1. 分布式概念2. 应用领域四、数据挖掘1. 基本概念2. 主要应用五、集群部署六、大数据处理1. 大数据体系2. 主流软件七、数据仓库八、数据可视化1. Echarts(Enterprise Charts商业级数据图表)2. Echar...原创 2019-04-04 12:05:12 · 234 阅读 · 0 评论 -
Elasticsearch从入门到精通
1.Java语言全文检索技术简介 什么是lucene?Lucene是一套 “全文检索” 编程API ,基于Lucene对数据建立索引,进行查询。很多框架对lucene进行了封装。什么是ElasticSearch ?现在企业开发中,更常用是的solr搜索服务器和ElasticSearch搜索服务器如果大家使用过 Apache Lucene 或 Apac...原创 2019-03-27 17:44:12 · 254 阅读 · 0 评论 -
03Linux常用操作
Linux常用操作文章目录Linux常用操作本节任务教学目标教学内容一、Linux系统的启动1. 相关配置文件2. 开机前的读秒3. 系统启动级别二. 破解密码的两种方式1. 单用户模式破解2. 光盘启动破解三、Linux下的文本编辑1. 三种工作模式2. 模式间的切换3. 命令模式4. 常用操作四、网卡配置1. 配置文件路径2. 配置文件3. 配置项4. 网络服务控制五、用户与权限1. 用户分...原创 2019-04-01 11:38:56 · 92 阅读 · 0 评论 -
西南大学大数据8天实训
大数据实训第一天日志第一天 第二天 第三天 第四天 第五天 第六天 第七天 第八天学习内容总结CentOS安装 安装vmWare workstation 添加虚拟机,安装CentOS操作系统 配置网络,编辑网卡配置文件,设置BOOTPROTO="dhcp"和ONBOOT="YES" Linux系统基本操作cd / 切换路径 ...原创 2019-07-10 10:08:29 · 1982 阅读 · 0 评论