自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

黑洲非人lyf

共同学习进步, 联系邮箱:844460260@qq.com

  • 博客(107)
  • 资源 (2)
  • 收藏
  • 关注

原创 机器学习(十五)SVD(特征值分解和奇异值分解的区别)

首先从意义上理解:作者:赵文和链接:https://www.zhihu.com/question/19666954/answer/54788626来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。首先,矩阵可以认为是一种线性变换,而且这种线性变换的作用效果与基的选择有关。以Ax = b为例,x是m维向量,b是n维向量,m,n可以相等也可以不相等,表示矩阵可以将一个向量线...

2018-04-14 18:47:49 25423 5

原创 机器学习(八)SVM支持向量机

线性分类器:支持向量就像我们平时判断一个人是男还是女,就是很难出现分错的情况,这就是男、 女两个类别之间的间隙非常的大导致的,让我们可以更准确的进行分类。在SVM 中,称为Maximum Marginal,是SVM的一个理论基础之一。 选择使得间隙最大的函数作为分割平面是有很多道理的,比如说从概率的角 度上来说,就是使得置信度最小的点置信度最大(听起来很拗口),从实践的角度 来说,这样的效果非常好...

2018-04-05 13:36:23 702

原创 机器学习(七)随机森林,GBDT,Adaboost

Bagging(装袋)Bagging的策略:(1)从样本集中重采样(有重复的)选出n个样本;(2)在所有属性上,对这n个样本建立分类器(ID3、C4.5、CART、SVM、Logistic回归等);(3)重复以上两步m次,即获得了m个分类器;(4)将数据放在这m个分类器上,最后根据这m个分类器的投票结果,决定数据属于哪一类。疑问1:n的值如何选择?疑问2:m的值如何选择...

2018-04-04 22:44:47 1484 2

原创 机器学习(拓展)L1,L2-Norm理解

首先理解范数的概念L1、L2这种在机器学习方面叫做正则化,统计学领域的人喊她惩罚项,数学界会喊她范数。范数(norm)是数学中的一种基本概念。在泛函分析中,它定义在赋范线性空间中,并满足一定的条件,即①非负性;②齐次性;③三角不等式。它常常被用来度量某个向量空间(或矩阵)中的每个向量的长度或大小。L1就是曼哈顿距离L2就是欧式距离再理解什么是稀疏矩阵在矩阵中,若数值为0的元素数目远远多于非0元素的...

2018-04-04 21:09:11 28265 4

原创 机器学习(六)决策树优化-剪枝

来自https://blog.csdn.net/u012328159/article/details/79285214决策树(decision tree)(二)——剪枝**注:本博客为周志华《机器学习》读书笔记,虽然有一些自己的理解,但是其中仍然有大量文字摘自周老师的《机器学习》书。 决策树系列博客: 1. 决策树(一)——构造决策树 2. 决策树(二)——剪枝 3. 决策树(decision t...

2018-04-03 22:49:35 8241 8

原创 机器学习(四)逻辑回归Logistic Regression,Softmax Regression

逻辑回归可以说是最为常用的机器学习算法之一,最经典的场景就是计算广告中用于CTR预估,是很多广告系统的核心算法。首先要熟悉下最大似然详细链接:https://blog.csdn.net/zengxiantao1994/article/details/72787849似然函数(linkehood function):联合概率密度函数称为相对于的θ的似然函数。逻辑回归Logistic Regressi...

2018-04-02 22:24:46 1190

原创 wifi直连(Android)Wifi-Direct

wifi直连也叫做wifi设备点对点连接(peer-peer),不需要连接热点或者网络,需要打开wifi,就可以查找到附近的设备。大概可以分为以下步骤:1.设置以下权限,并且注意最小sdk=142.创建一个广播接收器,通过创建IntentFilter来addAction得到各个特定事件的发生来进行回调.创建一个新的 BroadcastReceiver 类,用来监听系统的Wi-Fi

2017-07-08 11:08:20 19285 13

转载 卷积神经网络(conv2d参数含义、卷积层、池化层)

本文转载自罗翌新:中科大数学博士,深度学习医学应用专家;廖星宇:中科大硕士,计算机视觉专家,Face++资深工程师,《深度学习之Pytorch》作者;的深度学习理论与实战(基于TensorFlow实现)一、tf.nn.conv2d()卷积函数各参数解析二、卷积例子三、池化函数tf.nn.max_pool()函数解析四、池化例子...

2021-08-06 14:08:48 1146

原创 深入理解java虚拟机-笔记

java内存区域与内存溢出异常java虚拟机自动内存管理机制,不用像C/C++为每一个new操作去写配对delete/free代码java虚拟机在执行java程序的过程中 会把内存划分为若干个不同的数据区域程序计数器:执行字节码指令 分支 循环 跳转。java虚拟机的多线程是通过线程轮流切换并分配处理器执行时间的方式来实现的java虚拟机栈 线程私有,存储局部变量本地方法栈为nat...

2020-04-09 22:50:50 228

原创 插入排序和希尔排序

可参考https://github.com/hustcc/JS-Sorting-Algorithmhttp://www.runoob.com/w3cnote/bubble-sort.html插入排序插入排序的代码实现虽然没有冒泡排序和选择排序那么简单粗暴,但它的原理应该是最容易理解的了,因为只要打过扑克牌的人都应该能够秒懂。插入排序是一种最简单直观的排序算法,它的工作原理是通过构建...

2019-04-24 17:37:02 267

原创 力扣刷算法题

https://leetcode-cn.com/problems/majority-element/description/

2019-04-18 14:39:52 574

原创 Jaccard和Levenshtein

目录Jaccard相似度Levenshtein距离Jaccard相似度1、jaccard index又称为jaccard similarity coefficient用于比较有限样本集之间的相似性和差异性定义:给定两个集合A,B jaccard 系数定义为A与B交集的大小与并集大小的比值,jaccard值越大说明相似度越高Levenshtein距离拿idf还得自己去...

2019-04-16 15:04:09 635

原创 python知识点

目录python super详解Python __call__函数Self的定义继承python super详解http://www.runoob.com/w3cnote/python-super-detail-intro.htmlclass A: def __init__(self): self.n = 2 def add(self...

2019-04-15 18:06:48 258

原创 顺序表(线性表的顺序存储结构)及C语言实现

#include <stdio.h>#include <string.h>#include <stdlib.h>#define MAXSIZE 20#define initSize 10typedef int ElemType;typedef struct{ ElemType *data; int length;}SeqList;S...

2019-04-04 13:41:55 637

原创 SMOTE-类不平衡问题

什么是类不平衡问题 类不平衡(class-imbalance)是指在训练分类器中所使用的训练集的类别分布不均。比如说一个二分类问题,1000个训练样本,比较理想的情况是正类、负类样本的数量相差不多;而如果正类样本有995个、负类样本仅5个,就意味着存在类不平衡。 在后文中,把样本数量过少的类别称为“少数类”。 但实际上,数据集上的类不平衡到底有没有达到需要...

2019-03-27 21:48:55 1217

原创 链表增加节点和反转java

public class reverseLink { public static void main(String []args) { MyLinkList myLinkList = new reverseLink().new MyLinkList(); myLinkList.addNode(1); myLinkList.addNode(2); myLinkList.ad...

2019-03-02 17:59:32 274

原创 Tensorflow入门到实战六(保存网络和加载网络)

保存网络import tensorflow as tfimport numpy as np# Save to file# remember to define the same dtype and shape when restoreW = tf.Variable([[1,2,3],[3,4,5]], dtype=tf.float32, name='weights')b = tf...

2019-03-01 18:18:47 482

原创 Tensorflow入门到实战五(卷积神经网络)

方法定义tf.nn.conv2d (input, filter, strides, padding, use_cudnn_on_gpu=None, data_format=None, name=None)参数:**input : ** 输入的要做卷积的图片,要求为一个张量,shape为 [ batch, in_height, in_weight, in_channel ],其中batch为图片...

2019-02-28 22:56:52 329

原创 Tensorflow入门到实战四(识别手写数字集mnist)

手写数字集mnist任然是集合作为特征数*样本数,特征数代表了某层神经元数量wx_plus_b = tf.nn.dropout(wx_plus_b,keep_prob)dropout可以解决过拟合def add_layer(inputs,in_size,out_size,activation_function=None): Weights = tf.Variable(tf...

2019-02-28 14:22:46 220

原创 Tensorflow入门到实战 拓展(Tensorflow常用函数)

tf.argmax axisy_pre = [[5,1,1,0,1],[2,3,-4,5,6]]​session.run(tf.arg_max(y_pre,1))array([0, 4], dtype=int64)y_presession.run(tf.arg_max(y_pre,0))array([0, 1, 0, 1, 1], dtype=in...

2019-02-27 21:47:44 207

原创 Tensorflow入门到实战三(构造简单的神经网络)

1:tf.random_normal:正态分布产生的随机值:常用的参数就是shape,和dtype了,但是也包括方差和均值;参数(shape,stddev,mean,dtype)2:tf.random_uniform 默然是在0到1之间产生随机数:但是也可以通过maxval指定上界,通过minval指定下界np.newaxis 的实用np.newaxis 在使用和功能上...

2019-02-27 16:48:21 242

原创 Tensorflow入门到实战一(变量与常量/placeholder)

变量与常量import tensorflow as tf ## 定义#定义一个变量var =tf.Variable(0,name="myvar")#定义一个常量con_var=tf.constant(1)#定义一个加法new_var=tf.add(var,con_var)## 开始计算#初始化,在初始化之前是变量是没有值的init =tf.global_vari...

2019-02-26 15:12:03 376

原创 Tensorflow入门到实战二(求解线性回归)

求解线性回归代码块如下import tensorflow as tfimport numpy as npx_data = np.random.rand(100).astype(np.float32)y_data = 0.1*x_data +0.3print(tf.random_uniform([1],-1,1))weights = tf.Variable(tf.random_...

2019-02-25 18:44:08 260

原创 HMM与分词、词性标注、命名实体识别

HMM自己的博客链接以上为之前的HMM总结的有点抽象,这次来个实际的小项目来总结一下参考自http://www.hankcs.com/nlp/hmm-and-segmentation-tagging-named-entity-recognition.html目录HMM描述例子描述求解最可能的天气这个例子的Python代码:NLP应用小结HMM(隐马尔可夫模型...

2019-02-21 15:58:04 811

原创 需要学习的网站/博客指南

这个博客的博主的内容很好:http://www.hankcs.com/tensorlow学习:https://www.jianshu.com/p/27a2fb320934代码:https://github.com/zhaozhengcoder/Machine-Learningtensorflow 学习csdn博客https://blog.csdn.net/xierhacke...

2019-02-20 18:00:30 201

原创 基于物品/用户/内容的推荐算法(ItemCF, UserCF, ContentCF)

课程链接:https://www.imooc.com/video/15790代码链接: https://github.com/SkillyZ/java-spring/tree/master/skilly-hadoopHadoop的一些java访问接口编程步骤等:https://www.cnblogs.com/zhangyinhua/p/7678704.html#_lab2_1_1 ...

2019-02-15 14:53:55 2341

原创 Hadoop学习笔记(一)

HDFS架构图HDFS:分布式文件系统DataNode:存放文件或文件副本。块:最小64MB。 Map Reduce的四个阶段:1、Split阶段(分片输入阶段)2、Map阶段(需要编码)3、Shuffle阶段4、Reduce阶段(需要编码)Word Count实例回顾:1、Input(输入文件)2、Split阶段(分片输入阶段),将数据...

2019-02-14 14:26:13 282

原创 Hadoop视频教程汇总

一 慕课网1.Hadoop大数据平台架构与实践--基础篇链接:https://www.imooc.com/learn/3912.Hadoop进阶链接:https://www.imooc.com/learn/890 二 极客学院1.Hadoop 概述链接:http://www.jikexueyuan.com/course/677.html2.Hadoop 架构介绍...

2019-02-12 15:48:54 1486

原创 小象学院自然语言处理第二期---笔记

参考链接:机器学习:完整机器学习项目流程,数据清洗出错:chmod能改变权限,-R是目录下所有文件,777就是高权限(读、写、执行)chmod -R 777 * 意思就是将当前目录下所有文件都给予777权限这个在服务器里不能随便敲的,不能在根目录下进行此命令,因为有些进程是指定权限(如755、700...)才能运行的...,导致打不开linux系统,需重装。  1.信息熵...

2019-01-28 21:29:58 878

原创 NLP--(八)深度学习制作聊天机器人+VQA+图灵机器人(三)

NLP资料PDF链接 Seq2Seq:https://blog.csdn.net/gzmfxy/article/details/78691048  **********************************************************************************************VQA...

2019-01-28 16:56:59 816

原创 NLP--(八)聊天机器人(二)

NLP资料PDF链接 chatterbot源码 Github上链接:https://github.com/gunthercox/ChatterBot可以尝试里面的example一、前述ChatterBot是一个基于机器学习的聊天机器人引擎,构建在python上,主要特点是可以自可以从已有的对话中进行学(jiyi)习(pipei)。二、具体1、安装是的,安装超...

2019-01-24 20:36:20 1636

转载 好玩的微信接口Python--ItChat

转载自:https://www.cnblogs.com/jiaoyu121/p/6944398.html代码放在这里:wzyonggege/python-wechat-itchat词云那里可以换成小黄人图片-----------------------------------------------------------------------------------------...

2019-01-24 18:18:10 1017

原创 NLP--(八)聊天机器人(一)

NLP资料PDF链接 升级II:光是会BB还是不行,得有知识体系!才能解决用户的问题。我们可以用各种数据库,建立起一套体系,然后通过搜索的方式,来查找答案。比如,最简单的就是Python自己的graph数据结构来搭建一个“地图”。依据这个地图,我们可以清楚的找寻从一个地方到另一个地方的路径,然后作为回答,反馈给用户。In [17]:# 建立一个基于目标行业...

2019-01-23 20:24:59 979

原创 判别式模式和产生式模型

参考:https://blog.csdn.net/qq_15111861/article/details/82189216参考:https://blog.csdn.net/Yaphat/article/details/52574748特点:产生式模型:从统计的角度表示数据的分布情况,能够反映同类数据本身的相似度,不关心判别边界。判别式模型:寻找不同类别之间的最优分类面,反映的是异...

2019-01-21 18:48:28 409

原创 机器学习--最大熵模型

 参考链接:https://www.jianshu.com/p/e7c13002440dhttps://www.cnblogs.com/wxquare/p/5858008.html详解机器学习中的熵、条件熵、相对熵和交叉熵 https://www.cnblogs.com/kyrieng/p/8694705.htmlMaxEnt 模型的求解MaxEnt 模型最后被形式化为带有约束...

2019-01-17 20:13:04 504

原创 NLP--词向量与相关应用(七)

NLP资料PDF链接   

2019-01-16 21:34:11 1711

原创 PyInstaller 打包 xgboost算法包等可能出现问题

工作中,需要打包大数据xgboost算法包,出现以下问题缺失.dll文件在没有git工具的情况下可以上github   https://github.com/dmlc/xgboost 下载源码下好源码 进入python-package包中的xgboost核心算法包然后 下载http://ssl.picnet.com.au/xgboost/20180217/x64/xgboost...

2019-01-14 15:54:40 4086 1

原创 NLP--HMM(隐马尔科夫模型)(六)

NLP资料PDF链接 转自:https://www.cnblogs.com/skyme/p/4651331.html什么是熵(Entropy)简单来说,熵是表示物质系统状态的一种度量,用它老表征系统的无序程度。熵越大,系统越无序,意味着系统结构和运动的不确定和无规则;反之,,熵越小,系统越有序,意味着具有确定和有规则的运动状态。熵的中文意思是热量被温度除的商。负熵是物质系统有序...

2019-01-14 15:28:24 2888

原创 NLP--Doc2Bow简介与实践Demo(五)

NLP资料PDF链接参考文章:https://blog.csdn.net/qq_16633405/article/details/80578804总结文章参考:sklearn+gensim︱jieba分词、词袋doc2bow、TfidfVectorizerDoc2Bow是Gensim中封装的一个方法,主要用于实现Bow模型,下面主要介绍下Bow模型。1、BoW模型原理B...

2019-01-11 13:53:07 5111 1

原创 NLP--LDA主题模型(四)

NLP资料PDF链接  初了解:LDA初了解链接于是很容易证明,伽马函数可以当成是阶乘在实数集上的延拓,对于正整数n,具有如下性质:需要看的文章https://blog.csdn.net/sinat_26917383/article/details/71436563通俗理解LDA主题模型 项目希拉里的邮件:...

2019-01-09 20:32:19 2010

tesseract-ocr-setup-3.02.02

tesseract-ocr-setup-3.02.02,OCR光学字符识别工具tesseract

2017-07-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除