自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(31)
  • 收藏
  • 关注

原创 缺失值处理 回归填充

通过线性回归模型预测并填充未知数据

2021-12-31 14:29:21 1362

原创 缺失值处理 KNN填充

通过KNN模型预测并填充未知数据

2021-12-31 14:28:03 1651

原创 缺失值处理 fillna

通过fillna函数对缺失数据进行统计(均值、中位数、众数)填充

2021-12-31 14:25:10 591

原创 缺失值处理 SimpleInputer

通过SimpleInputer对缺失数据进行统计(均值、中位数、众数)填充

2021-12-31 14:22:00 911

原创 缺失值处理 DropNa

通过dropna函数删除带有缺失数据的行或列

2021-12-31 14:19:00 1103

原创 有监督学习之KNN回归问题

import numpy as npfrom sklearn.neighbors import KNeighborsRegressor # 回归import matplotlib.pyplot as pltx = [1, 2, 3, 4, 5]x = np.array(x).reshape(-1,1)y = [9, 12, 1, 6, 7]plt.scatter(x, y)plt.show()model = KNeighborsRegressor(n_neighbors=3)mo.

2021-12-05 16:56:01 273

原创 有监督学习之KNN分类问题

from sklearn.neighbors import KNeighborsClassifier # 分类import numpy as npimport matplotlib.pyplot as pltx = np.array( [[1, 1], [1, 1.5], [2, 2.5], [2.5, 3], [1.5, 1], [3, 2.5]])y = ['A','A','B','B','A','B']'''n_nei.

2021-12-05 16:55:00 124

原创 基于LDA实现降维

import pandas as pdimport numpy as npfrom sklearn.datasets import load_wineimport matplotlib.pyplot as pltwine = load_wine()df_wine = pd.DataFrame(data=wine["data"],columns=wine["feature_names"])# print(df_wine)df_wine["target"] = wine["target"].

2021-12-05 16:51:55 3368 2

原创 基于PCA实现降维

import numpy as npx=np.array([2.5,0.5,2.2,1.9,3.1,2.3,2,1,1.5,1.1])y=np.array([2.4,0.7,2.9,2.2,3.0,2.7,1.6,1.1,1.6,0.9])# 将两行数据拼接,然后再进行转置处理O = np.vstack((x,y)).Tprint(O)x = x.reshape(-1,1)y = y.reshape(-1,1)# 中心化处理X = np.hstack((x - np.mean(.

2021-12-05 16:47:12 1156

原创 基于Java开发Streaming篇

package com.hj.spark;import java.util.Arrays;import java.util.Iterator;import org.apache.spark.SparkConf;import org.apache.spark.api.java.function.FlatMapFunction;import org.apache.spark.api.java.function.Function2;import org.apache.spark.api.java..

2021-11-02 16:13:14 2436

原创 基于Java开发Kafka篇

生产者:import java.util.Properties;import java.util.concurrent.ExecutionException;import org.apache.hive.com.esotericsoftware.minlog.Log;import org.apache.kafka.clients.producer.Callback;import org.apache.kafka.clients.producer.KafkaProducer;...

2021-11-02 16:06:57 1254

原创 基于Java开发Hive篇

package com.hj.hive;import java.io.File;import java.sql.Connection;import java.sql.DriverManager;import java.sql.PreparedStatement;import java.sql.ResultSet;import java.sql.ResultSetMetaData;import java.sql.SQLException;import org.apac...

2021-11-02 15:55:25 1478

原创 基于Java开发HBase篇

import java.io.File;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.hbase.Cell;import org.apache.hadoop.hbase.CellUtil;import org.apache.hadoop.hbase.HColumnDescri

2021-11-02 15:42:53 770

原创 基于Java开发Flink篇

package com.hj.flink;import org.apache.flink.api.common.functions.FilterFunction;import org.apache.flink.api.common.functions.MapFunction;import org.apache.flink.api.common.functions.ReduceFunction;import org.apache.flink.api.java.functions.KeySelect.

2021-08-28 10:28:48 825

原创 基于Java开发的Spark篇(RDD)

package com.hj.spark;import java.util.ArrayList;import java.util.Arrays;import java.util.Iterator;import java.util.List;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.JavaRDD;impor.

2021-08-28 10:25:27 2161

原创 基于Java开发的HDFS篇

package com.hj.hadoop;import java.io.BufferedReader;import java.io.BufferedWriter;import java.io.File;import java.io.FileInputStream;import java.io.FileNotFoundException;import java.io.FileOutputStream;import java.io.IOException;import java.io.In.

2021-08-28 10:23:15 173

原创 基于Java开发的MapReduce篇(WordCounnt)

package com.hj.mapreduce;import java.io.File;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoo.

2021-08-28 10:21:55 133

原创 朴素贝叶斯介绍

1、贝叶斯方法总结:先验概率:某个事件在自然条件下发生的概率(或者称为自发性的概率)后延概率:某个事件在特定条件下发生的概率(或者称为当特定条件发生的情况下,某个事件发生的概率)2、案例 (1)3、案例(2)4、朴素贝叶斯分类算法5、朴素贝叶斯分类的工作过程 (1)6、案例7、朴素贝叶斯分类方法的优缺点8、朴素贝叶斯的特点朴素贝...

2021-07-31 17:33:04 201

原创 线性回归介绍及实验(附代码)

1、线性回归分析(1)2、线性回归分析(2)3、误差注意:高斯分布又称为正态分布4、一元线性回归5、多元线性回归目标函数实验案例:# -*— coding:utf-8 -*-# Author:Jun Huang# 一元线性回归的实现import matplotlib.pyplot as plt #导入matplotlib库,主要用于可视化from matplotlib.font_manager import FontProperties

2021-07-31 17:23:29 584

原创 SVM案例(附代码)

# -*— coding:utf-8 -*-# Author:Jun Huang#导入相关的方法import matplotlib.pyplot as pltimport numpy as npfrom sklearn import svmdef loadDataSet(fileName): """ 对文件进行逐行解析,从而得到第行的类标签和整个数据矩阵 Args: fileName 文件名 Returns: dataMat.

2021-07-31 17:14:53 953 8

原创 SVM介绍

1、SVM基本概念2、线性分类3、线性SVM(认真理解)4、数学建模(不考,仅供了解)5、约束条件6、目标函数7、拉格朗日函数优化8、拉格朗日对偶9、非线性分类10、非线性SVM11、映射关系12、核函数13、常用核函数(考试的时候同时编写4个函数,取结果值最高的)14、常用核函数的特性 (1)15、常用核函数适用问题 (2)高斯核函数是理想的分类依据函数,

2021-07-31 17:12:16 68

原创 Python之散点图实验

2021-06-30 22:13:34 115

原创 Python数据可视化(二)

继大数据之数据可视化(一)内容考察大家

2021-06-30 22:04:03 57

原创 Python数据可视化(一)

2021-06-30 21:59:07 78

原创 虚拟系统实验

实验解析:实验结果测试:研发部门 在地址组10.3.0.2-10.3.0.10中的员工可以访问Internet研发部门 不在地址组10.3.0.2-10.3.0.10中的员工无法访问Internet不让研发部门访问行政部门财经部门的员工无法访问Internet行政部门无法访问研发部门行政部门可以访问Internet...

2021-06-30 21:54:25 155

原创 负载分担场景下的源NAT配置(双机热备)

实验要求:(1)PC1 ping通 11.11.11.11(2)查看FW1的防火墙会话表项(3)PC2 ping通 11.11.11.11(4)查看FW2的防火墙会话表项实验结果:PC1 ping 11.11.11.11FW1信息display firewall session table # 查看防火墙会话表项PC2 ping 11.11.11.11FW2信息display firewall sessi..

2021-06-30 21:50:36 150

原创 浅谈TF-IDF原理

一、基本概念特征提取:从原始数据中抽取特征TF-IDF:词频-逆向文件频率,是一种在文本挖掘中广泛使用的特征向量化方法词语:用t表示文档:用d表示语料库:用D表示词频TF(t,d):词语t在文档中d中出现的次数文件频率DF(t,D):包含词t的文档的个数二、原理如果我们只是用词频来衡量重要性,很容易过度强调在文档中经常出现,却没有太多实际信息的词语,比如“a”,“the”以及“of”。如果一个词语经常出现在语料库中,意味着他不能很好的对文档进行分区。TF-IDF就..

2021-05-31 22:38:27 572

原创 深度学习之注意力机制

一、前提该篇为基于实现LSTM中文情感倾向分析的基础上,为提高情感倾向预测的准确度,而引入的一个注意力机制模块,通过翻阅相关学术文献和其他资料所作的归纳总结。二、注意力机制简介简单来说,注意力机制与人类视觉注意力相似,正如人在看事物一样,会选择重点的对象,而忽略次要对象。近几年来,注意力机制在图片处理领域和自然语言处理领域得到广泛的应用,并展现出显著的效果。注意力机制主要是利用神经网络找到输入特征的有效部分。三、Encoder-Decoder模型注意力机制的框架主要是基于Encoder-

2021-05-31 22:26:36 1333

原创 Centos7 Elasticsearch+IK中文分词+Kibana

一、关于elasticsearch、ik、kibana安装包的下载:1.ik中文分词的下载地址为:https://github.com/medcl/elasticsearch-analysis-ik/releases 查看和下载对应的ik版本2.elasticsearch、kibana安装包的而下载地址:https://www.elastic.co/downloads/past-releases下载与ik对应版本的elasticsearch、kibana...

2021-05-31 22:23:15 193

原创 Scrapy爬虫之MongoDB数据存储

小编是一个爬虫初学者,学习python爬虫已有一段时间了,对Scrapy框架开发有自己的一点小见解,如果有说不对的地方,希望大家多多指点。小编用的是Python2.7,如果觉得版本太旧,也可以用3.x版本,可能语法上有点不同。为了方便,小编在windows系统下开发案例。小编这次做了关于对拉勾网招聘信息采集的简单爬虫,并将采集的信息存放到MongoDB数据库中。 在开始代码之前,还没有安装过MongoDB的朋友,可以先去官网下载并安装。MongoDB下载官网:https://www.mongodb..

2021-05-31 22:20:15 489

原创 MapReduce运行过程中的卡壳问题

其实我不是很想写这次总结的,一是自己本身就是初学者,想法还很幼稚,很多知识都还没完全弄懂;二是自己本身已经懒癌中期,太麻烦了,不大想花心思去写一些不是很有意义的东西.但是今天在做Mapreduce相关案例的时候,遇到一个问题,在网上查看了很多帖子发现都没有用,没有看到比较具体的解决方案,花了很多时间,虽然最后还是弄好了,但过程还是挺难受的,所以想写个总结,如果有同学遇到相同问题的话,可以看看,或许会有点帮助吧.说一下问题吧,将写好代码打包成jar包,在CentOS的终端命令中运行jar包.(ps:为了方便大

2021-05-31 22:09:18 256 6

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除