飞跃小龙猫-CSDN博客

原创缺失值处理回归填充

通过线性回归模型预测并填充未知数据

2021-12-31 14:29:21 1362

原创缺失值处理 KNN填充

通过KNN模型预测并填充未知数据

2021-12-31 14:28:03 1651

原创缺失值处理 fillna

通过fillna函数对缺失数据进行统计（均值、中位数、众数）填充

2021-12-31 14:25:10 591

原创缺失值处理 SimpleInputer

通过SimpleInputer对缺失数据进行统计（均值、中位数、众数）填充

2021-12-31 14:22:00 911

原创缺失值处理 DropNa

通过dropna函数删除带有缺失数据的行或列

2021-12-31 14:19:00 1103

import numpy as npfrom sklearn.neighbors import KNeighborsRegressor # 回归import matplotlib.pyplot as pltx = [1, 2, 3, 4, 5]x = np.array(x).reshape(-1,1)y = [9, 12, 1, 6, 7]plt.scatter(x, y)plt.show()model = KNeighborsRegressor(n_neighbors=3)mo.

2021-12-05 16:56:01 273

原创有监督学习之KNN分类问题

from sklearn.neighbors import KNeighborsClassifier # 分类import numpy as npimport matplotlib.pyplot as pltx = np.array( [[1, 1], [1, 1.5], [2, 2.5], [2.5, 3], [1.5, 1], [3, 2.5]])y = ['A','A','B','B','A','B']'''n_nei.

2021-12-05 16:55:00 124

原创基于LDA实现降维

import pandas as pdimport numpy as npfrom sklearn.datasets import load_wineimport matplotlib.pyplot as pltwine = load_wine()df_wine = pd.DataFrame(data=wine["data"],columns=wine["feature_names"])# print(df_wine)df_wine["target"] = wine["target"].

2021-12-05 16:51:55 3368 2

原创基于PCA实现降维

import numpy as npx=np.array([2.5,0.5,2.2,1.9,3.1,2.3,2,1,1.5,1.1])y=np.array([2.4,0.7,2.9,2.2,3.0,2.7,1.6,1.1,1.6,0.9])# 将两行数据拼接，然后再进行转置处理O = np.vstack((x,y)).Tprint(O)x = x.reshape(-1,1)y = y.reshape(-1,1)# 中心化处理X = np.hstack((x - np.mean(.

2021-12-05 16:47:12 1156

原创基于Java开发Streaming篇

package com.hj.spark;import java.util.Arrays;import java.util.Iterator;import org.apache.spark.SparkConf;import org.apache.spark.api.java.function.FlatMapFunction;import org.apache.spark.api.java.function.Function2;import org.apache.spark.api.java..

2021-11-02 16:13:14 2436

原创基于Java开发Kafka篇

生产者：import java.util.Properties;import java.util.concurrent.ExecutionException;import org.apache.hive.com.esotericsoftware.minlog.Log;import org.apache.kafka.clients.producer.Callback;import org.apache.kafka.clients.producer.KafkaProducer;...

2021-11-02 16:06:57 1254

原创基于Java开发Hive篇

package com.hj.hive;import java.io.File;import java.sql.Connection;import java.sql.DriverManager;import java.sql.PreparedStatement;import java.sql.ResultSet;import java.sql.ResultSetMetaData;import java.sql.SQLException;import org.apac...

2021-11-02 15:55:25 1478

原创基于Java开发HBase篇

import java.io.File;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.hbase.Cell;import org.apache.hadoop.hbase.CellUtil;import org.apache.hadoop.hbase.HColumnDescri

2021-11-02 15:42:53 770

原创基于Java开发Flink篇

package com.hj.flink;import org.apache.flink.api.common.functions.FilterFunction;import org.apache.flink.api.common.functions.MapFunction;import org.apache.flink.api.common.functions.ReduceFunction;import org.apache.flink.api.java.functions.KeySelect.

2021-08-28 10:28:48 825

原创基于Java开发的Spark篇（RDD）

package com.hj.spark;import java.util.ArrayList;import java.util.Arrays;import java.util.Iterator;import java.util.List;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.JavaRDD;impor.

2021-08-28 10:25:27 2161

原创基于Java开发的HDFS篇

package com.hj.hadoop;import java.io.BufferedReader;import java.io.BufferedWriter;import java.io.File;import java.io.FileInputStream;import java.io.FileNotFoundException;import java.io.FileOutputStream;import java.io.IOException;import java.io.In.

2021-08-28 10:23:15 173

原创基于Java开发的MapReduce篇（WordCounnt）

package com.hj.mapreduce;import java.io.File;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoo.

2021-08-28 10:21:55 133

原创朴素贝叶斯介绍

1、贝叶斯方法总结：先验概率：某个事件在自然条件下发生的概率（或者称为自发性的概率）后延概率：某个事件在特定条件下发生的概率（或者称为当特定条件发生的情况下，某个事件发生的概率）2、案例 (1)3、案例（2）4、朴素贝叶斯分类算法5、朴素贝叶斯分类的工作过程 (1)6、案例7、朴素贝叶斯分类方法的优缺点8、朴素贝叶斯的特点朴素贝...

2021-07-31 17:33:04 201

原创线性回归介绍及实验（附代码）

1、线性回归分析（1）2、线性回归分析（2）3、误差注意：高斯分布又称为正态分布4、一元线性回归5、多元线性回归目标函数实验案例：# -*— coding:utf-8 -*-# Author:Jun Huang# 一元线性回归的实现import matplotlib.pyplot as plt #导入matplotlib库，主要用于可视化from matplotlib.font_manager import FontProperties

2021-07-31 17:23:29 584

原创 SVM案例（附代码）

# -*— coding:utf-8 -*-# Author:Jun Huang#导入相关的方法import matplotlib.pyplot as pltimport numpy as npfrom sklearn import svmdef loadDataSet(fileName): """ 对文件进行逐行解析，从而得到第行的类标签和整个数据矩阵 Args: fileName 文件名 Returns: dataMat.

2021-07-31 17:14:53 953 8

原创 SVM介绍

1、SVM基本概念2、线性分类3、线性SVM（认真理解）4、数学建模（不考，仅供了解）5、约束条件6、目标函数7、拉格朗日函数优化8、拉格朗日对偶9、非线性分类10、非线性SVM11、映射关系12、核函数13、常用核函数（考试的时候同时编写4个函数，取结果值最高的）14、常用核函数的特性 (1)15、常用核函数适用问题 (2)高斯核函数是理想的分类依据函数，

2021-07-31 17:12:16 68

原创 Python之散点图实验

2021-06-30 22:13:34 115

原创 Python数据可视化（二）

继大数据之数据可视化（一）内容考察大家

2021-06-30 22:04:03 57

原创 Python数据可视化（一）

2021-06-30 21:59:07 78

原创虚拟系统实验

实验解析：实验结果测试：研发部门在地址组10.3.0.2-10.3.0.10中的员工可以访问Internet研发部门不在地址组10.3.0.2-10.3.0.10中的员工无法访问Internet不让研发部门访问行政部门财经部门的员工无法访问Internet行政部门无法访问研发部门行政部门可以访问Internet...

2021-06-30 21:54:25 155

原创负载分担场景下的源NAT配置（双机热备）

实验要求：（1）PC1 ping通 11.11.11.11（2）查看FW1的防火墙会话表项（3）PC2 ping通 11.11.11.11（4）查看FW2的防火墙会话表项实验结果：PC1 ping 11.11.11.11FW1信息display firewall session table # 查看防火墙会话表项PC2 ping 11.11.11.11FW2信息display firewall sessi..

2021-06-30 21:50:36 150

原创浅谈TF-IDF原理

一、基本概念特征提取：从原始数据中抽取特征TF-IDF:词频-逆向文件频率,是一种在文本挖掘中广泛使用的特征向量化方法词语：用t表示文档：用d表示语料库：用D表示词频TF(t,d)：词语t在文档中d中出现的次数文件频率DF(t,D)：包含词t的文档的个数二、原理如果我们只是用词频来衡量重要性，很容易过度强调在文档中经常出现，却没有太多实际信息的词语，比如“a”,“the”以及“of”。如果一个词语经常出现在语料库中，意味着他不能很好的对文档进行分区。TF-IDF就..

2021-05-31 22:38:27 572

原创深度学习之注意力机制

一、前提该篇为基于实现LSTM中文情感倾向分析的基础上，为提高情感倾向预测的准确度，而引入的一个注意力机制模块，通过翻阅相关学术文献和其他资料所作的归纳总结。二、注意力机制简介简单来说，注意力机制与人类视觉注意力相似，正如人在看事物一样，会选择重点的对象，而忽略次要对象。近几年来，注意力机制在图片处理领域和自然语言处理领域得到广泛的应用，并展现出显著的效果。注意力机制主要是利用神经网络找到输入特征的有效部分。三、Encoder-Decoder模型注意力机制的框架主要是基于Encoder-

2021-05-31 22:26:36 1333

原创 Centos7 Elasticsearch+IK中文分词+Kibana

一、关于elasticsearch、ik、kibana安装包的下载：1.ik中文分词的下载地址为：https://github.com/medcl/elasticsearch-analysis-ik/releases 查看和下载对应的ik版本2.elasticsearch、kibana安装包的而下载地址：https://www.elastic.co/downloads/past-releases下载与ik对应版本的elasticsearch、kibana...

2021-05-31 22:23:15 193

原创 Scrapy爬虫之MongoDB数据存储

小编是一个爬虫初学者，学习python爬虫已有一段时间了，对Scrapy框架开发有自己的一点小见解，如果有说不对的地方，希望大家多多指点。小编用的是Python2.7，如果觉得版本太旧，也可以用3.x版本，可能语法上有点不同。为了方便，小编在windows系统下开发案例。小编这次做了关于对拉勾网招聘信息采集的简单爬虫，并将采集的信息存放到MongoDB数据库中。在开始代码之前，还没有安装过MongoDB的朋友，可以先去官网下载并安装。MongoDB下载官网：https://www.mongodb..

2021-05-31 22:20:15 489

原创 MapReduce运行过程中的卡壳问题

其实我不是很想写这次总结的，一是自己本身就是初学者，想法还很幼稚，很多知识都还没完全弄懂；二是自己本身已经懒癌中期，太麻烦了，不大想花心思去写一些不是很有意义的东西.但是今天在做Mapreduce相关案例的时候，遇到一个问题，在网上查看了很多帖子发现都没有用，没有看到比较具体的解决方案，花了很多时间，虽然最后还是弄好了，但过程还是挺难受的，所以想写个总结，如果有同学遇到相同问题的话，可以看看，或许会有点帮助吧.说一下问题吧，将写好代码打包成jar包，在CentOS的终端命令中运行jar包.（ps：为了方便大

2021-05-31 22:09:18 256 6

m0_46524771的博客