大数据与机器学习_海の云的博客-CSDN博客

大数据与机器学习

关注

文章平均质量分 70

关注数：文章数：31 文章阅读量：52280 文章收藏量：116

作者: 海の云

资深互联网软件工程师、技术团队管理者，精通JavaEE，大数据与机器学习，SQL，Scala，Python，Linux，Android移动开发，C#，JavaScript等技术

展开

傅里叶变换去噪

在计算机中用这个公式更好处理一点 n和N是在一个正弦周期内采样N个点，采样间隔为2pi\N,n用来步进，一次步进2pi\N,最后进行累加求和，就得出了X(k)最后离散傅里叶变换完整代码1，从文件读取8000个音频数据，由于现实中的音频没有虚部，所以只设置实部。2，离散傅里叶变换关键处temp的re就是对应上图公式的cos，同理im就是对应上图的sin，每个X[k]进行累加求和 for (int k = 0; k < N; k++) { X[k].re = 0;

转载 2022-12-07 11:50:55 · 2182 阅读 · 0 评论
机器学习进阶-直方图与傅里叶变换-傅里叶变换(高低通滤波)

1.cv2.dft(进行傅里叶变化) 2.np.fft.fftshift(将低频移动到图像的中心) 3.cv2.magnitude(计算矩阵的加和平方根) 4.np.fft.ifftshift(将低频和高频移动到原来位置) 5.cv2.idft(傅里叶逆变换)1. cv2.dft(img, cv2.DFT_COMPLEX_OUTPUT) 进行傅里叶变化参数说明: img表示输入的图片， cv2.DFT_COMPLEX_OUTPUT表示进行傅里叶变化的方法2. np.fft.fftshift(im

转载 2021-08-25 11:43:13 · 897 阅读 · 0 评论
ElasticSearch match, match_phrase, term区别

1.term结构化字段查询，匹配一个值，且输入的值不会被分词器分词。　　比如查询条件是：{ "query":{ "term":{ "foo": "hello world" } }}那么只有在字段中存储了“hello world”的数据才会被返回，如果在存储时，使用了分词，原有的文本“I say hello world”会被分词进行存储，不会存在“hello world”这整个词，那么不会返回任何值。但是如果使

转载 2021-06-24 17:11:57 · 515 阅读 · 0 评论
Elasticsearch高级搜索排序（中文+拼音+首字母+简繁转换+特殊符号过滤）(示例代码)

简介这篇文章主要介绍了Elasticsearch高级搜索排序（中文+拼音+首字母+简繁转换+特殊符号过滤）(示例代码)以及相关的经验技巧，文章约21106字，浏览量320，点赞数5，值得参考！一、先摆需求：1、中文搜索、英文搜索、中英混搜如：“南京东路”，“cafe 南京东路店”2、全拼搜索、首字母搜索、中文+全拼、中文+首字母混搜如：“nanjingdonglu”，“njdl”，“南京donglu”，“南京dl”，“nang南东路”，“njd路”等等组合3、简繁搜索、特殊...

转载 2021-06-17 14:15:43 · 2565 阅读 · 0 评论
机器学习preprocess 几个概念

scipy.sparse.csr_matrix>>> indptr = np.array([0, 2, 3, 6])>>> indices = np.array([0, 2, 2, 0, 1, 2])>>> data = np.array([1, 2, 3, 4, 5, 6])>>> csr_matrix((data, indices, indptr), shape=(3, 3)).toarray()array([[1,

原创 2021-04-01 18:08:29 · 559 阅读 · 0 评论
Hadoop切换namenode为active

hdfs haadmin -transitionToActive --forcemanual nn1hdfs haadmin -transitionToActive nn1./stop-dfs.sh./start-dfs.shhdfs haadmin -getServiceState nn1hdfs haadmin -getServiceState nn2

原创 2021-03-09 13:39:31 · 1492 阅读 · 0 评论
HanLP词性标注集

##HanLP词性标注集 a 形容词 ad 副形词 ag 形容词性语素 al 形容词性惯用语 an 名形词 b 区别词 begin 仅用于始##始 bg 区别语素 bl 区别词性惯用语 c 连词 cc 并列连词 d 副词 dg 辄,俱,复之类的副词 dl 连语 e 叹词 end 仅用于终##终 f 方位词 g 学术词汇.

转载 2021-01-12 18:15:36 · 1185 阅读 · 0 评论
定量变量和定性变量的转换（Transform of Quantitative & Qualitative Variables）

定量变量（Quantitative Variables）：也称为数值型变量（Numerical Variables），可以用连续值或离散值表示。比如：气温（连续值），学生人数（离散值）。为什么要对定量变量进行转换？大多数情况下，我们可以直接使用定量变量。但是有时候，特征和目标之间不呈线性关系。比如说年龄和收入之间的关系，当人年轻时，收入通常会稳步上升，但到了一定年纪之后，收入便开始降低。我们当然可以用非线性模型来拟合数据，但是这样会把模型弄得很复杂。因此比较好的做法是在数据准备的阶段就对定理变量做.

转载 2020-11-27 13:59:24 · 8420 阅读 · 0 评论
最小二乘法笔记

可以这么理解。。。对于线性回归模型,这个模型的符号意义，必须要理解。符号与文字的转化必须要熟练。否则你很难理解理论的精妙之处。当然如果你是看的机器学习的书，请梳理一遍符号，因为貌似和统计学的不太一样。例如他们会该死地写成这样：不扯蛋了。现在开始分析：在分析之前，我们说说符号的意思，注意符号与文字的转换要非常熟练，这就像英语，要做到同声翻译的水平。当然每个人都有不同的风格，这就有点无语，以至于不同的书，符号不一样。TMD这是英语有了方言啊。横向是不同的变量，纵向是记录。..

转载 2020-06-10 13:32:18 · 581 阅读 · 0 评论
最小支持度、最小置信度、显著性

置信度=在事务中已经包含X的情况下包含Y的百分比；支持度=事务中同时包含X、Y的百分比；下面看一个三级数据库题库的真题吧1）以下是某商场的购物记录集合，每个购物篮中包含若干商品。现在要基于该数据集进行关联规则挖掘，如果设置最小支持度为60%，最小置信度为80%，则在以下列出的关联规则中，符合条件的是（）。由表中可以看出，事务中同时包含C，D的支持度为3/5=60%；在包含D的情况下包含C的置信度为3/3=100%；所以这个题也就不难看出答案啦，选D；...

原创 2020-06-03 13:38:41 · 10564 阅读 · 0 评论
信息熵的取值范围计算证明过程

转载 2020-05-29 16:07:54 · 1408 阅读 · 0 评论
矩阵求导、几种重要的矩阵及常用的矩阵求导公式

一、矩阵求导一般来讲，我们约定x=(x1,x2,...xN)Tx=(x1,x2,...xN)T，这是分母布局。常见的矩阵求导方式有：向量对向量求导，标量对向量求导，向量对标量求导。1、向量对向量求导2、标量对向量求导3、向量对标量求导其他的可以参考wiki：维基百科矩阵求导公式二、几种重要的矩阵1、梯度（Gradient）2、雅克比矩阵（J...

转载 2020-04-13 14:06:32 · 596 阅读 · 0 评论
LDA模型概要

1）从狄利克雷分布α中抽样，生成文档d的主题分布θ2）从主题的多项式分布θ中抽样，生成文档d的第i个词的主题zi3）从狄利克雷分布β中抽样，生成主题zi对应的词语分布φi4）从词语的多项式分布φi中采样，最终生成词语wi这个模型图的解释如下：1.：这个过程表示生成第n个词对应的topic。在生成第m篇文档的时候，先从topic骰子中抽了一个骰子，然后投掷这个骰子，...

原创 2020-03-13 18:37:51 · 721 阅读 · 0 评论
VectorIndexer

//定义输入输出列和最大类别数为5，某一个特征//（即某一列）中多于5个取值视为连续值VectorIndexerModel featureIndexerModel=new VectorIndexer() .setInputCol("features") .setMaxCategories(5) ...

原创 2020-02-21 17:15:26 · 457 阅读 · 0 评论
决策树分裂

什么是决策树举个校园相亲的例子，今天校园的小猫(女)和小狗(男)准备配对，小猫如何才能在众多的优质????的心仪的狗呢？于是呢？有一只特乖巧的小猫找到了你，你正在学习机器学习，刚好学习了决策树，准备给这只猫猫挑选优质狗，当然，你不仅仅是直接告诉猫哪些狗是合适你的？你更应该详细的给猫讲解决策树是如何根据它提出的标准选出的符合要求的狗呢？猫给出如下信息：年龄<0.5 不心仪；年龄大于>=...

原创 2020-02-21 16:14:56 · 2432 阅读 · 0 评论
SVM 敲黑板划重点

SVM推导给定，SVM考虑基于训练集D在样本空间中找到一个划分超平面(hiperplane)，将不同类别的样本分开。划分超平面公式：（别慌，它其实就是我们炒鸡眼熟的直线公式 ax+b = 0对吧）其中为法向量，决定了超平面的方向；b为位移项，决定了超平面与原点之间的距离。通常划分超平面用 (w,b)来表示，因为其可被法向量w和位移b确定。样本空间中任意点x到超平...

原创 2020-01-18 16:18:31 · 424 阅读 · 0 评论
贝叶斯分类

1.概述要了解贝叶斯分类，必须了解贝叶斯定理，贝叶斯定理离不开条件概率条件概率定义：事件A在另外一个事件B已经发生条件下的发生概率。条件概率表示为P（A|B），读作“在B条件下A的概率”。在事件B发生的情况下，事件A发生的概率就是P(A∩B)除以P(B)。可以很清楚地看到在事件B发生的情况下，事件A发生的概率就是P(A∩B)除以P(B)。P(A|B)=P(A∩B)/P(B)...

原创 2019-12-28 15:46:58 · 1628 阅读 · 0 评论
Spark 运行问题 java.lang.NoSuchMethodError: scala.Predef 解决方案

idea中如果遇到这种问题，一般查找和spark匹配的scala版本就能解决如果不能解决请打开项目的iml文件，去掉不同版本的scala的orderEntry就能解决。另在mac中通常会有问题no snappyjava in java.library.path解决方案如下1. 从maven center中下载snappy-java-1.x.x.x.jar 2. unzip解压在路...

原创 2018-09-10 10:45:28 · 2234 阅读 · 0 评论
zookeeper入门之curator框架--几种锁的操作

package com.git.zookeeper.passwordmanager.lock; import java.util.ArrayList;import java.util.List;import java.util.concurrent.TimeUnit; import org.apache.commons.lang.math.RandomUtils;import or...

转载 2018-09-21 16:56:04 · 275 阅读 · 0 评论
Zookeeper 安装和配置

[转载请注明作者和原文链接, 如有谬误, 欢迎在评论中指正. ] Zookeeper的安装和配置十分简单, 既可以配置成单机模式, 也可以配置成集群模式. 下面将分别进行介绍.单机模式点击这里下载zookeeper的安装包之后, 解压到合适目录. 进入zookeeper目录下的conf子目录, 创建zoo.cfg:Bash代码 tickTime=2000 data...

转载 2014-12-30 16:56:59 · 507 阅读 · 0 评论
ElasticSearch 6 安装及相关坑解析

首先下载https://www.elastic.co/downloads/elasticsearch然后解压到用户目录比如：~/module然后配置环境变量比如：export ES_HOME=/home/zhy/module/elasticsearch-6.4.1 export PATH=...

原创 2018-09-29 16:52:19 · 679 阅读 · 1 评论
解决org.apache.hadoop.io.nativeio.NativeIO$Windows.access0(Ljava/lang/String;I)Z

首先对于操作的目的文件夹权限做检查，如没有则：hadoop fs -chmod -R a+rwx /tmp/hadoop-yarn/staging其次把这个文件包括进来，可以从hadoop源码包里面找，本文也附下载其中access方法做了如下修改：public static boolean access(String path, AccessRight desiredAcces...

原创 2018-12-04 11:39:59 · 422 阅读 · 0 评论
hadoop项目打包的两种方法

一. IDEA 打包1.右击项目名称，选择Open Module Settings2.选择Artifacts，点击中间绿色的+号，选择JAR,再选择第二个选项3.点击Main Class右边的小方块选择主类，下一个选项如果要打成一个压缩包选择第一个，如果其他依赖包要分开放也就是最后是多个jar包选择第二个选项。我选第一个，然后点击OK 4.勾选include in p...

原创 2018-11-30 11:31:49 · 1544 阅读 · 0 评论
Hadoop, HBase, Hive, ZooKeeper默认端口说明

Hadoop, HBase, Hive, ZooKeeper默认端口说明组件 Daemon 端口配置说明 HDFS DataNode 50010 dfs.datanode.address datanode服务端口，用于数据传输 50075 dfs.datanode.http.address http服务...

转载 2018-12-05 18:39:06 · 990 阅读 · 0 评论
Elasticsearch Java API四种实现方式

0、题记之前Elasticsearch的应用比较多，但大多集中在关系型、非关系型数据库与Elasticsearch之间的同步。以上内容完成了Elasticsearch所需要的基础数据量的供给。但想要在海量的数据中找到和自己相关的业务数据，实现对已有的数据实现全文检索、分类统计等功能并应用到业务系统中，必须借助Java API来实现。1、Elasticsearch Java API 概览...

转载 2019-01-12 00:19:30 · 416 阅读 · 0 评论
新Spark MLlib库读取recommend结果值

改成新org.apache.spark.ml包（未来mllib包将不再使用，现已不再更新），很多人都会困惑如何读取预测的结果集，这里来讲解下：比如：ALSModel训练后抓取里面的每个用户最喜欢的前10个品类model.recommendForAllUsers(10)返回的结果集是DataFrame，那么怎么去使用这个dataframe呢？下面给出个小demo：...

原创 2019-04-01 14:34:33 · 1102 阅读 · 0 评论
Spark启动时的master参数以及Spark的部署方式了解一下

我们在初始化SparkConf时，或者提交Spark任务时，都会有master参数需要设置，如下： conf = SparkConf().setAppName(appName).setMaster(master) sc = SparkContext(conf=conf) /bin/spark-submit \ --cluster cluster...

转载 2019-04-02 11:31:46 · 4731 阅读 · 0 评论
Spark数据类型SparseMatrix

SparseMatrixSpark的mllib包中提供了机器学习的两种基本数据类型： DenseMatrix（稠密）和 SparseMatrix（稀疏），在初始化对象的时候可以使用Matrices伴生对象产生，先看下示例代码：import org.apache.spark.mllib.linalg.{Matrix, Matrices}// Create a dense matrix ((...

转载 2019-04-09 14:20:44 · 181 阅读 · 0 评论
Elasticsearch 基本查询（Query查询）

基本查询（Query查询）数据准备及简单查询# 首先做一个数据准备，创建一个索引PUT /lib3{ "settings": { "number_of_shards": 3, "number_of_replicas": 0 }, "mappings": { "user": { "properti...

转载 2019-09-19 16:27:20 · 254 阅读 · 0 评论
Elasticsearch 聚合查询及复合查询

集合查询sum聚合sum是一个求累加值的聚合，其作用与关系型数据库中相同。GET /lib4/items/_search{ "size": 0, # 表示查询多少条文档，聚合只需就和结果，输出文档可以设置为0条 "aggs": { "price_of_sum": { # 自行取名作为结果集 "sum": { ...

转载 2019-09-19 16:28:32 · 532 阅读 · 0 评论
bootstrapStandby无法连接错误

hdfs namenode -bootstrapStandby 同步metadata之前一定要确认防火墙没有问题（可以关闭sudo service iptables stop 关闭防火墙，sudo chkconfig iptables off 启动自动关闭防火墙）并修改主机名sudo vim /etc/sysconfig/network 把hostname改为和hosts配置的同名（需要重...

原创 2018-08-13 10:49:49 · 1788 阅读 · 0 评论

大数据与机器学习

作者: 海の云

傅里叶变换去噪

机器学习进阶-直方图与傅里叶变换-傅里叶变换(高低通滤波)

ElasticSearch match, match_phrase, term区别

Elasticsearch高级搜索排序（ 中文+拼音+首字母+简繁转换+特殊符号过滤）(示例代码)

机器学习preprocess 几个概念

Hadoop切换namenode为active

HanLP词性标注集

定量变量和定性变量的转换（Transform of Quantitative & Qualitative Variables）

最小二乘法 笔记

最小支持度、最小置信度、显著性

信息熵的取值范围计算证明过程

矩阵求导、几种重要的矩阵及常用的矩阵求导公式

LDA模型概要

VectorIndexer

决策树分裂

SVM 敲黑板 划重点

贝叶斯分类

Spark 运行问题 java.lang.NoSuchMethodError: scala.Predef 解决方案

zookeeper入门之curator框架--几种锁的操作

Zookeeper 安装和配置

ElasticSearch 6 安装及相关坑解析

解决org.apache.hadoop.io.nativeio.NativeIO$Windows.access0(Ljava/lang/String;I)Z

hadoop项目打包的两种方法

Hadoop, HBase, Hive, ZooKeeper默认端口说明

Elasticsearch Java API四种实现方式

新Spark MLlib库读取recommend结果值

Spark启动时的master参数以及Spark的部署方式了解一下

Spark数据类型SparseMatrix

Elasticsearch 基本查询（Query查询）

Elasticsearch 聚合查询及复合查询

bootstrapStandby无法连接错误

Elasticsearch高级搜索排序（中文+拼音+首字母+简繁转换+特殊符号过滤）(示例代码)

最小二乘法笔记

SVM 敲黑板划重点