自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Gradient Fly

希贤

  • 博客(48)
  • 资源 (12)
  • 收藏
  • 关注

原创 深度学习-*-Keras+TextCNN文本分类 基于Thucnews数据集

Thucnews数据集由于本地机器资源有限,所以仅拿出4W数据来做训练和测试我把thucnews数据存到了本地mongo数据集上如下所示(请忽略label 和lable 的字母拼写错误…)项目目录结构其中classify.py->分类主体文件classify_text.txt->测试样例,自己搜集的数据gpos-vocab->自己训练的词典库stopwords->停用词典text_util.py->对文本进行操作的工具thucnews.json->

2020-06-22 18:14:00 1256 1

原创 机器学习-*-聚类评价指标

直接上代码,参考论文《文本聚类分析效果评价及文本表示研究》#!/usr/bin/python# -*- coding:utf-8 -*-"""@Name cluster_metrics@Description 聚类评估方法@Date 2019/4/4"""import sysimport mathdef _find_dict_and_dataset(p_class =...

2019-04-04 15:23:40 662

原创 【大模型学习记录】db-gpt源码安装问题汇总

DB-GPT学习记录

2024-03-19 17:56:26 499

原创 【大模型学习记录】安装Lanchain-chatchat环境的第三方包fschat出错的解决方案

记录大模型学习中的问题:解决fschat第三方包安装失败

2024-03-03 20:09:43 480

原创 ntpupdate更新IP

202.112.10.36该IP可用[root@localhost ~]# ntpdate 202.112.10.3614 Jan 11:20:38 ntpdate[3326]: step time server 202.112.10.36 offset -28829.215040 sec

2022-01-14 11:22:56 2329

原创 为jupyter notebook 增加运行环境kernel

然后conda activate XX环境安装ipykernel,pip install ipykernel然后输入python -m ipykernel --name XX 即可

2021-02-23 15:45:45 152

原创 NLP-*-NER实体识别模型

说明模型:BiLSTM+CRF框架:tensorflow 1.14.0硬件:RTX 2080Ti (11G)其他:采用BIO 标注的方式本人在NER方面没有实际经验,代码有不当之处 请各位看官指正代码目录如下:NERdatasetlabels.txttrain_datamodelsdatautil.pyner.pytrain.pyner.py# -*- coding:utf-8 -*-import osfrom tqdm import tqdmimpo

2020-11-11 19:08:30 286

原创 tensorflow-*-from tensorflow import keras 与 from tensorflow.python import keras

how to use keras in tf在版本tensorflow2.0+中有很多方式引入kerasimport tensorflow as tffrom tensorflow import keras# from tensorflow_core import keras# from tensorflow.python import keras# 使用第一种 from tensorflow import keras# 其余的两个与其还是有区别的,比如我在使用的时候model.fit时会报如

2020-06-19 17:02:31 6435

原创 NLP-*-Glove词向量原理

Glove词向量引入学习词向量有两种方法:局部和全局全局的代表有 LSA PLSA等局部的代表有 Word2Vec他们都有各自的缺陷,全局的没有利用好词之间的类比信息,局部的方法没有利用词全局的统计信息Glove词向量即利用了局部信息也利用了全局的统计信息,全名为:Global Vectors for Word Representation Jeffrey原理首先引入词汇的共现矩阵XXX,其中每一个元素XijX_{ij}Xij​表示词汇jjj出现在词汇iii的上下文的次数总和,令Xi=ΣkX

2020-06-16 15:23:25 639

原创 机器学习-*-特征工程简述

简要说明一些特征工程方面用到的知识,关于一些原理没有深入讲解和研究,主要是对知识有一个系统性理解,当实际工作中遇到相应问题时可快速解决和分析特征归一化为什么需要特征归一化为了消除数据特征之间的量纲影响,我们需要对特征进行归一化处理,使得不同的指标之间有可比性我们一般会对数值类的特征进行归一化在训练中使用归一化,可以更快的找到最优解归一化常用的方法线性归一化Xnorm=X−XminXmax−XminX_{norm}=\frac{X-X_{min}}{X_{max}-X_{min}}Xnor

2020-06-12 17:45:35 167

原创 Bug记录-*-IDEA2019.2.4 Maven jar包引入问题

尼玛用idea自带的maven 可以下载一些jar 包括 spark、postgresql用了自己安装的maven-3.6.0 下载不了 其余的jar包一直觉得是maven的版本问题,奶奶的原来是IDEA的Maven setting 的Work Offline 要关闭!!不得不骂自己 SB...

2020-05-20 17:49:49 477 1

原创 数据结构与算法-*-暴力求解、分治法和线性方法对比(最大子数组)

对于最大子数组问题,这里写了两种方法进行求解,并给出对比图形进行对比,发现在我本机上大概数据规模在120以上,分治法开始优于暴力求解方法#!/usr/bin/python# -*- coding:utf-8 -*-"""Name : 4.1-3Describe: 最大子数组 暴力求解及分治法Author : LHDate : 2019/9/6"""import math...

2019-09-06 10:22:46 2320

原创 深度学习-*-TextCNN对头条文章进行分类

数据集–头条文章根据晚上搜集的数据资源-github地址:头条数据集处理该数据集的策略是 分词,抽词等,主要是通过原爬取者抽取的关键字和我从标题中抽取的关键字结合作为分类的特征词。模型参考的是网上的教程:import tensorflow as tfclass TextCNN(object): """ TextCNN model """ def __...

2019-03-28 14:21:16 551 1

原创 数据结构-*-二叉树基本结构与遍历算法

二叉树首先看节点的定义package per.lihao.tree;/** * @author : LiHao * @date : 2018/12/4 9:59 */public class TreeNode { /** * 关键字 */ private int data; /** * 左子树节点 */ pr...

2018-12-26 15:03:08 167

原创 机器学习-*-决策树

决策树决策树的学习一般需要3个步骤来实现:特征选择决策树的生成决策树剪枝在每一点所用的方法不同,得到的决策树算法就会不同。比如:特征选择方面:ID3选择信息增益作为准则(criterion) , C4.5用信息增益率作为准则,CART用基尼系数或者MSE(最小均方损失)作为准则。决策树生成方面:ID3 C4.5 是多叉树,每个节点是一种特征属性判断,各个节点特征属性不重复。而CA...

2018-12-19 15:32:36 194

原创 数据结构-*-快速排序

package per.lihao.sort.complexsort;import per.lihao.sort.SortSequence;import per.lihao.sort.simplesort.BubbleSort;/** * 快速排序 * 时间复杂度为O(nlogn),空间复杂度O(1) * 下面的方法是 递归填坑法,若要转化为非递归 需要利用栈存储各个子区间的范围...

2018-12-17 16:20:04 159

原创 数据结构-*-归并排序

package per.lihao.sort.complexsort;import per.lihao.sort.SortSequence;import per.lihao.sort.simplesort.BubbleSort;/** * 二路归并排序 * 时间复杂度为:O(nlogn) * Author: LiHao * Time: 2018/12/13 14:13 */p...

2018-12-14 16:08:58 113 1

原创 数据结构-*-堆排序

package per.lihao.sort.complexsort;import per.lihao.sort.SortSequence;import per.lihao.sort.simplesort.BubbleSort;/** * 堆排序 * 时间复杂度:O(nlog2n) * Author: LiHao * Time: 2018/12/7 10:33 */publi...

2018-12-11 10:21:29 144 1

原创 数据结构-*-希尔排序

package per.lihao.sort.complexsort; import jdk.nashorn.tools.Shell; import per.lihao.sort.SortSequence; import per.lihao.sort.simplesort.BubbleSort;/** * 希尔排序 又叫做缩小增量排序,是插入...

2018-12-07 10:27:53 142

原创 数据结构-*-简单排序

简单排序原理比较简单,后续补充生成数据package per.lihao.sort;import java.util.Random;/** * Author: LiHao * Time: 2018/12/5 10:09 */public class SortSequence { private int MAXSIZE = 10; private int[] m...

2018-12-05 15:06:05 474

原创 机器学习-*-DBSCAN聚类及代码实现

DBSCANDBSCAN(Density-Based Spatial Clustering of Applications with Noise,具有噪声的基于密度的聚类方法)原理首先描述以下几个概念,假设我们有数据集D={x1,x2,x3,...,xn}D=\{x_1,x_2,x_3,...,x_n\}D={x1​,x2​,x3​,...,xn​},则1.ϵ\epsilonϵ邻域:对于∀...

2018-11-28 16:46:38 3543

原创 机器学习-*-MeanShift聚类算法及代码实现

MeanShift该算法也叫做均值漂移,在目标追踪中应用广泛。本身其实是一种基于密度的聚类算法。主要思路是:基于某一点的周围半径R内的点向量,计算出该点下一步移动的路线。当该点不再移动时,计算其与历史类簇的距离,满足阈值要求的即合并,不满足则自身形成一个类簇。本身有改进的核方法,这里不阐述了。后续会加上有时间补充概念,先上代码及实验结果:Python代码#!/usr/bin/pytho...

2018-11-26 17:58:17 2859 3

原创 机器学习-*-K均值聚类及代码实现

KMeans聚类在聚类算法中,最出名的应该就是k均值聚类(KMeans)了,几乎所有的数据挖掘/机器学习书籍都会介绍它,有些初学者还会将其与KNN等混淆。k均值是一种聚类算法,属于无监督学习的一种,而KNN是有监督学习/分类学习的一种。聚类:顾名思义,就是讲某些相似的事物聚在一起,形成一个类。这里就涉及到几个概念1.如何表示一个事物?通常我们会准备好一个数据集,里面是我们的数据,每一行代表的...

2018-11-26 14:29:35 3648 10

原创 深度学习-*-RNN正向及反向传播

RNN简介RNN(循环神经网络)是深度神经网络中,应用最广泛的两种神经网络架构之一。并且,作为一种时序结构的神经网络,RNN经常用于时序相关的问题中,且在NLP中应用广泛。还有一种RNN称为递归神经网络,虽然名字类似,但是却是不一样的架构。RNN图示xtx_txt​是输入层数据,sts_tst​是隐含层数据,oto_tot​是输出层数据,我们令:每一个yty_tyt​是t时刻对应的真实输出...

2018-11-25 21:47:16 2292 1

原创 深度学习-*-tensorboard错误记录

在启动时 命令行输入 tensorboard --logdir=/home/… 其中/home…是路径 不是字符串 不能用引号括起来

2018-11-15 17:49:47 207

原创 机器学习-*-朴素贝叶斯

原理(先简单写一下,后续补公式,主要是贴上去代码)朴素贝叶斯有一个较强的前提条件:各个特征之间是独立的他的思想是利用贝叶斯定理来学习到数据的分布,属于生成模型的一种。他根据期望风险最小化推导出后验概率最大化,故可以用极大似然估计和贝叶斯估计来找到模型的参数。代码(numpy 矩阵输入)#!/usr/bin/python# -*- coding:utf-8 -*-"""Author ...

2018-11-02 22:29:59 342

原创 深度学习-*-正向及反向传播推导

正向传播如上图所示,这是一个全连接的三层神经网络,之所以说这个是3层,是因为包含了2个隐藏层、1个输出层。输入层在这里我们不把他当做神经网络中的一层看待。这里,我们假设输入数据为XXX,输出为YYY。我们先看hidden layer 1,记权重参数为W[1]W^[1]W[1]...

2018-10-31 17:21:20 1481 1

原创 机器学习-*-KNN最近邻分类

算法思想通俗易懂:需要预测的数据X与历史数据做距离计算,找到距离最小的排名前K的距离点,看一下这里面哪种类型最多,就判别为X属于哪一类。直接上代码:这里利用了TensorFlow中的MNIST手写数字数据集#!/usr/bin/python# -*- coding:utf-8 -*-"""Author LiHaoTime 2018/10/31 10:46"&a

2018-10-31 15:31:11 286

原创 NLP-*-jieba工具的使用

一 分词支持三种分词模式:1.精确模式,试图将句子最精确地切开,适合文本分析;2.全模式,把句子中所有的可以成词的词语都扫描出来,速度非常快,但是不能解决歧义;3.搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。def test_cut(sentence): """ 测试分词三种模式 :param sentence: :...

2018-10-25 15:58:38 473

原创 深度学习-*-梯度优化算法及代码实例

1 梯度下降算法想必大家对梯度下降或多或少有所了解,这里对他的原理就不再多说(其他教程说的比我好多了),只给出下列公式(按照吴恩达的深度学习课程中的公式):W:=W−α∗dWW:=W-\alpha*dWW:=W−α∗dW b:=b−α∗dbb:=b-\alpha*dbb:=b−α∗db上述公式中dW与db为参数W与偏置b的梯度方向,α\alphaα为步长/学习速率,即一个超参。我们的任务就是通...

2018-10-19 14:58:01 1228

原创 关于word2vec及文本相似性计算

关于word2vec及文本相似性计算最近2个月主要涉及到对文本相似度计算方法的实验,用了 词频词袋模型、tfidf词袋表示、word2vec表示,利用一些标注好的数据对结果进行了检验,最终还是发现 tfidf相似度计算效果较好,但计算效率慢一些。 也看到很多人说word2vec在相关语义计算方面有优势,不知道是不是我训练的模型有问题。。。有了解的大牛麻烦指点word2vec训练用...

2018-08-28 17:56:03 11968 9

原创 青蛙跳台阶

之前面试遇到了这种题目,不会,后来搜索了一下,感觉分析的很好类型一青蛙跳一个N阶的台阶,每次可以跳1阶或者2阶,求跳完N阶y有多少种方法。分析: N=1,f(N)=1 N=2,f(N)=2 N=3,f(N)=3 N=4,f(N)=5 可以发现 f(N)=f(N-1)+f(N-2) 由此也可以推想:比如要跳到第4阶楼梯上,那么青蛙的前置位置要么在第2阶、要么在第3阶,即f(4)=f(3)+

2017-06-07 21:53:15 252

原创 python操作MongoDB

ps: 想查看mongodb的数据,可以下载Robomongo ->类似navicat的工具建立连接1,导入pymongo 2,导入 MongoClient 3,实例化Client,填入IP和Portimport pymongofrom pymongo import MongoClientclient = MongoClient('10.10.8.161',27017)使用数据库、集合d

2017-03-08 16:22:03 383

原创 ZKClient操作zookeeper集群

根据百度传课上的课程进行学习的zookeeper,记录一下zkclient的使用方法 (1)连接zookeeperpackage com.lihao.zkClientTest;import org.I0Itec.zkclient.ZkClient;import org.I0Itec.zkclient.serialize.SerializableSerializer;public class Cr

2017-02-28 13:16:54 2303

原创 用户贷款风险预测-datacastle竞赛题目

自己是大菜鸟一枚,datacastle比赛题目,根据别人的代码做的。用的是Logistic,做出的结果不好,目前只排在200多名。先放在博客上面,后续如果排名提上来了,再修改!加油!# -*- coding: utf-8 -*-"""Created on Tue Jan 10 09:54:12 2017###Datacastle的‘用户贷款风险预测’竞赛题目####初步想法是利用逻辑斯蒂回归

2017-01-10 15:27:10 7428 6

原创 数据归一化的方法

数据特征之间往往有着不同的分布区间,差异较大的情况下会很大程度的影响数据分析的结果。为了消除这种现象的影响需要对原始数据进行归一化处理,使得各个指标处于同一数量级。 (1)max-min归一化 也叫离差标准化,是对原始数据的线性变换,使结果值映射到[0 - 1]之间。公式为: X=(X-min)/(max-min) max:最大值,min:最小值。 (2)Z-score标准化 这种方法给

2016-12-19 13:38:07 1558

原创 项目笔记

.nav-bars 没能切换:bootstrap和JQuery引用时,JQuery必须放在bootstrap之前引用关于自己写的javascript脚本,根据情况放到body中使用

2016-11-16 18:16:13 349

原创 Redis+CentOS7.0安装配置

在CentOS7.0下配置Redis_3.0.6步骤(1)下载redis3.0.6,官网下载很慢,从别人那里copy过来的,链接http://pan.baidu.com/s/1o8Gsh0e (2)CentOS中,放到/usr/local/deploy/文件夹下, tar -zxvf 加压后 进入该redis目录 (3)执行make(前提是安装了gcc,没安装的直接 yum install gc

2016-11-12 12:03:08 376

原创 配置Hadoop分布式集群二(亲测)

配置hdfs-site.xml<configuration> <property> <name>dfs.namenode.secondary.http-address</name> <value>nn1:50090</value> </property> <property> <name>dfs.replication</n

2016-11-02 18:23:03 318

原创 配置Hadoop分布式集群一(亲测)

初入hadoop,个人备忘,如有错误,请见谅!准备虚拟机:安装3个centos7.0系统,连接方式为桥接,IP为161(主机),162(从机),163(从机) JDK:jdk-8u45 Hadoop版本:hadoop-2.7.2 安装虚拟机配置的方法见我之前发的另一篇博客http://blog.csdn.net/u013894072/article/details/51915190。 安装J

2016-11-02 17:18:49 617

用户贷款风险预测-开源代码.zip

17年 datacastle竞赛用户贷款风险预测初赛示例代码 数据的话后续在更新,也可以在csdn上联系

2020-04-01

知识图谱建模工具.zip

知识图谱建模工具:protege-5.2.0+graphviz-2.38,参考王昊奋知识图谱课程

2019-09-23

sbt官网学习文档

sbt官网学习文档

2018-12-12

SIF词向量相似度计算的一种方法

SIF:一种简单但是有效的词向量计算余弦相似度的方法,利用了tfidf等知识。

2018-12-12

突发话题发现

舆情监测突发话题,基于RNN及LDA模型的算法,实际应用效果需读者自己测试

2018-10-10

自适应学习率的论文

Equilibrated adaptive learning rates for non-convex optimization

2018-10-10

基于深度神经网络的用户会话推荐算法研究

基于深度神经网络的用户会话推荐算法研究 基于深度神经网络的用户会话推荐算法研究

2018-01-25

hadoop权威指南(第二版)

大数据入门利器,无需赘言

2016-07-15

电影评分-数据集

电影评分数据。 可以用作数据挖掘,进行电影推荐。

2016-01-22

opencv2计算机视觉编程手册(中文)

很好的图书资源,关于opencv2 的经典书籍

2014-08-23

matlab并行计算流程

基于matlab下的并行运算流程图,清晰易懂,对于不足之处请见谅。

2014-03-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除