大数据
飞跃小龙猫
这个作者很懒,什么都没留下…
展开
-
基于Java开发Streaming篇
package com.hj.spark;import java.util.Arrays;import java.util.Iterator;import org.apache.spark.SparkConf;import org.apache.spark.api.java.function.FlatMapFunction;import org.apache.spark.api.java.function.Function2;import org.apache.spark.api.java..原创 2021-11-02 16:13:14 · 2431 阅读 · 0 评论 -
基于Java开发Kafka篇
生产者:import java.util.Properties;import java.util.concurrent.ExecutionException;import org.apache.hive.com.esotericsoftware.minlog.Log;import org.apache.kafka.clients.producer.Callback;import org.apache.kafka.clients.producer.KafkaProducer;...原创 2021-11-02 16:06:57 · 1254 阅读 · 0 评论 -
基于Java开发Hive篇
package com.hj.hive;import java.io.File;import java.sql.Connection;import java.sql.DriverManager;import java.sql.PreparedStatement;import java.sql.ResultSet;import java.sql.ResultSetMetaData;import java.sql.SQLException;import org.apac...原创 2021-11-02 15:55:25 · 1478 阅读 · 0 评论 -
基于Java开发HBase篇
import java.io.File;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.hbase.Cell;import org.apache.hadoop.hbase.CellUtil;import org.apache.hadoop.hbase.HColumnDescri原创 2021-11-02 15:42:53 · 770 阅读 · 0 评论 -
基于Java开发Flink篇
package com.hj.flink;import org.apache.flink.api.common.functions.FilterFunction;import org.apache.flink.api.common.functions.MapFunction;import org.apache.flink.api.common.functions.ReduceFunction;import org.apache.flink.api.java.functions.KeySelect.原创 2021-08-28 10:28:48 · 825 阅读 · 0 评论 -
基于Java开发的Spark篇(RDD)
package com.hj.spark;import java.util.ArrayList;import java.util.Arrays;import java.util.Iterator;import java.util.List;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.JavaRDD;impor.原创 2021-08-28 10:25:27 · 2160 阅读 · 0 评论 -
基于Java开发的HDFS篇
package com.hj.hadoop;import java.io.BufferedReader;import java.io.BufferedWriter;import java.io.File;import java.io.FileInputStream;import java.io.FileNotFoundException;import java.io.FileOutputStream;import java.io.IOException;import java.io.In.原创 2021-08-28 10:23:15 · 173 阅读 · 0 评论 -
基于Java开发的MapReduce篇(WordCounnt)
package com.hj.mapreduce;import java.io.File;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoo.原创 2021-08-28 10:21:55 · 133 阅读 · 0 评论 -
朴素贝叶斯介绍
1、贝叶斯方法总结:先验概率:某个事件在自然条件下发生的概率(或者称为自发性的概率)后延概率:某个事件在特定条件下发生的概率(或者称为当特定条件发生的情况下,某个事件发生的概率)2、案例 (1)3、案例(2)4、朴素贝叶斯分类算法5、朴素贝叶斯分类的工作过程 (1)6、案例7、朴素贝叶斯分类方法的优缺点8、朴素贝叶斯的特点朴素贝...原创 2021-07-31 17:33:04 · 201 阅读 · 0 评论 -
线性回归介绍及实验(附代码)
1、线性回归分析(1)2、线性回归分析(2)3、误差注意:高斯分布又称为正态分布4、一元线性回归5、多元线性回归目标函数实验案例:# -*— coding:utf-8 -*-# Author:Jun Huang# 一元线性回归的实现import matplotlib.pyplot as plt #导入matplotlib库,主要用于可视化from matplotlib.font_manager import FontProperties原创 2021-07-31 17:23:29 · 584 阅读 · 0 评论 -
SVM案例(附代码)
# -*— coding:utf-8 -*-# Author:Jun Huang#导入相关的方法import matplotlib.pyplot as pltimport numpy as npfrom sklearn import svmdef loadDataSet(fileName): """ 对文件进行逐行解析,从而得到第行的类标签和整个数据矩阵 Args: fileName 文件名 Returns: dataMat.原创 2021-07-31 17:14:53 · 953 阅读 · 8 评论 -
SVM介绍
1、SVM基本概念2、线性分类3、线性SVM(认真理解)4、数学建模(不考,仅供了解)5、约束条件6、目标函数7、拉格朗日函数优化8、拉格朗日对偶9、非线性分类10、非线性SVM11、映射关系12、核函数13、常用核函数(考试的时候同时编写4个函数,取结果值最高的)14、常用核函数的特性 (1)15、常用核函数适用问题 (2)高斯核函数是理想的分类依据函数,原创 2021-07-31 17:12:16 · 68 阅读 · 0 评论 -
Python之散点图实验
原创 2021-06-30 22:13:34 · 115 阅读 · 0 评论 -
Python数据可视化(二)
继大数据之数据可视化(一)内容考察大家原创 2021-06-30 22:04:03 · 57 阅读 · 0 评论 -
Python数据可视化(一)
原创 2021-06-30 21:59:07 · 78 阅读 · 0 评论 -
浅谈TF-IDF原理
一、基本概念特征提取:从原始数据中抽取特征TF-IDF:词频-逆向文件频率,是一种在文本挖掘中广泛使用的特征向量化方法词语:用t表示文档:用d表示语料库:用D表示词频TF(t,d):词语t在文档中d中出现的次数文件频率DF(t,D):包含词t的文档的个数二、原理如果我们只是用词频来衡量重要性,很容易过度强调在文档中经常出现,却没有太多实际信息的词语,比如“a”,“the”以及“of”。如果一个词语经常出现在语料库中,意味着他不能很好的对文档进行分区。TF-IDF就..原创 2021-05-31 22:38:27 · 572 阅读 · 0 评论 -
Centos7 Elasticsearch+IK中文分词+Kibana
一、关于elasticsearch、ik、kibana安装包的下载:1.ik中文分词的下载地址为:https://github.com/medcl/elasticsearch-analysis-ik/releases 查看和下载对应的ik版本2.elasticsearch、kibana安装包的而下载地址:https://www.elastic.co/downloads/past-releases下载与ik对应版本的elasticsearch、kibana...原创 2021-05-31 22:23:15 · 193 阅读 · 0 评论 -
MapReduce运行过程中的卡壳问题
其实我不是很想写这次总结的,一是自己本身就是初学者,想法还很幼稚,很多知识都还没完全弄懂;二是自己本身已经懒癌中期,太麻烦了,不大想花心思去写一些不是很有意义的东西.但是今天在做Mapreduce相关案例的时候,遇到一个问题,在网上查看了很多帖子发现都没有用,没有看到比较具体的解决方案,花了很多时间,虽然最后还是弄好了,但过程还是挺难受的,所以想写个总结,如果有同学遇到相同问题的话,可以看看,或许会有点帮助吧.说一下问题吧,将写好代码打包成jar包,在CentOS的终端命令中运行jar包.(ps:为了方便大原创 2021-05-31 22:09:18 · 256 阅读 · 6 评论