Leo蓝色-CSDN博客

原创深度学习-*-Keras+TextCNN文本分类基于Thucnews数据集

Thucnews数据集由于本地机器资源有限，所以仅拿出4W数据来做训练和测试我把thucnews数据存到了本地mongo数据集上如下所示（请忽略label 和lable 的字母拼写错误…）项目目录结构其中classify.py->分类主体文件classify_text.txt->测试样例，自己搜集的数据gpos-vocab->自己训练的词典库stopwords->停用词典text_util.py->对文本进行操作的工具thucnews.json->

2020-06-22 18:14:00 1256 1

原创机器学习-*-聚类评价指标

直接上代码，参考论文《文本聚类分析效果评价及文本表示研究》#!/usr/bin/python# -*- coding:utf-8 -*-"""@Name cluster_metrics@Description 聚类评估方法@Date 2019/4/4"""import sysimport mathdef _find_dict_and_dataset(p_class =...

2019-04-04 15:23:40 662

原创【大模型学习记录】db-gpt源码安装问题汇总

DB-GPT学习记录

2024-03-19 17:56:26 499

原创【大模型学习记录】安装Lanchain-chatchat环境的第三方包fschat出错的解决方案

记录大模型学习中的问题：解决fschat第三方包安装失败

2024-03-03 20:09:43 480

原创 ntpupdate更新IP

202.112.10.36该IP可用[root@localhost ~]# ntpdate 202.112.10.3614 Jan 11:20:38 ntpdate[3326]: step time server 202.112.10.36 offset -28829.215040 sec

2022-01-14 11:22:56 2329

原创为jupyter notebook 增加运行环境kernel

然后conda activate XX环境安装ipykernel，pip install ipykernel然后输入python -m ipykernel --name XX 即可

2021-02-23 15:45:45 152

原创 NLP-*-NER实体识别模型

说明模型：BiLSTM+CRF框架：tensorflow 1.14.0硬件：RTX 2080Ti （11G）其他：采用BIO 标注的方式本人在NER方面没有实际经验，代码有不当之处请各位看官指正代码目录如下:NERdatasetlabels.txttrain_datamodelsdatautil.pyner.pytrain.pyner.py# -*- coding:utf-8 -*-import osfrom tqdm import tqdmimpo

2020-11-11 19:08:30 286

原创 tensorflow-*-from tensorflow import keras 与 from tensorflow.python import keras

how to use keras in tf在版本tensorflow2.0+中有很多方式引入kerasimport tensorflow as tffrom tensorflow import keras# from tensorflow_core import keras# from tensorflow.python import keras# 使用第一种 from tensorflow import keras# 其余的两个与其还是有区别的，比如我在使用的时候model.fit时会报如

2020-06-19 17:02:31 6435

原创 NLP-*-Glove词向量原理

Glove词向量引入学习词向量有两种方法：局部和全局全局的代表有 LSA PLSA等局部的代表有 Word2Vec他们都有各自的缺陷，全局的没有利用好词之间的类比信息，局部的方法没有利用词全局的统计信息Glove词向量即利用了局部信息也利用了全局的统计信息，全名为：Global Vectors for Word Representation Jeffrey原理首先引入词汇的共现矩阵XXX,其中每一个元素XijX_{ij}Xij表示词汇jjj出现在词汇iii的上下文的次数总和，令Xi=ΣkX

2020-06-16 15:23:25 639

原创机器学习-*-特征工程简述

简要说明一些特征工程方面用到的知识，关于一些原理没有深入讲解和研究，主要是对知识有一个系统性理解，当实际工作中遇到相应问题时可快速解决和分析特征归一化为什么需要特征归一化为了消除数据特征之间的量纲影响，我们需要对特征进行归一化处理，使得不同的指标之间有可比性我们一般会对数值类的特征进行归一化在训练中使用归一化，可以更快的找到最优解归一化常用的方法线性归一化Xnorm=X−XminXmax−XminX_{norm}=\frac{X-X_{min}}{X_{max}-X_{min}}Xnor

2020-06-12 17:45:35 167

原创 Bug记录-*-IDEA2019.2.4 Maven jar包引入问题

尼玛用idea自带的maven 可以下载一些jar 包括 spark、postgresql用了自己安装的maven-3.6.0 下载不了其余的jar包一直觉得是maven的版本问题，奶奶的原来是IDEA的Maven setting 的Work Offline 要关闭！！不得不骂自己 SB...

2020-05-20 17:49:49 477 1

原创数据结构与算法-*-暴力求解、分治法和线性方法对比（最大子数组）

对于最大子数组问题，这里写了两种方法进行求解，并给出对比图形进行对比，发现在我本机上大概数据规模在120以上，分治法开始优于暴力求解方法#!/usr/bin/python# -*- coding:utf-8 -*-"""Name : 4.1-3Describe: 最大子数组暴力求解及分治法Author : LHDate : 2019/9/6"""import math...

2019-09-06 10:22:46 2320

原创深度学习-*-TextCNN对头条文章进行分类

数据集–头条文章根据晚上搜集的数据资源-github地址：头条数据集处理该数据集的策略是分词，抽词等，主要是通过原爬取者抽取的关键字和我从标题中抽取的关键字结合作为分类的特征词。模型参考的是网上的教程：import tensorflow as tfclass TextCNN(object): """ TextCNN model """ def __...

2019-03-28 14:21:16 551 1

原创数据结构-*-二叉树基本结构与遍历算法

二叉树首先看节点的定义package per.lihao.tree;/** * @author : LiHao * @date : 2018/12/4 9:59 */public class TreeNode { /** * 关键字 */ private int data; /** * 左子树节点 */ pr...

2018-12-26 15:03:08 167

原创机器学习-*-决策树

决策树决策树的学习一般需要3个步骤来实现：特征选择决策树的生成决策树剪枝在每一点所用的方法不同，得到的决策树算法就会不同。比如：特征选择方面：ID3选择信息增益作为准则(criterion) , C4.5用信息增益率作为准则，CART用基尼系数或者MSE(最小均方损失)作为准则。决策树生成方面：ID3 C4.5 是多叉树，每个节点是一种特征属性判断，各个节点特征属性不重复。而CA...

2018-12-19 15:32:36 194

原创数据结构-*-快速排序

package per.lihao.sort.complexsort;import per.lihao.sort.SortSequence;import per.lihao.sort.simplesort.BubbleSort;/** * 快速排序 * 时间复杂度为O(nlogn)，空间复杂度O(1) * 下面的方法是递归填坑法，若要转化为非递归需要利用栈存储各个子区间的范围...

2018-12-17 16:20:04 159

原创数据结构-*-归并排序

package per.lihao.sort.complexsort;import per.lihao.sort.SortSequence;import per.lihao.sort.simplesort.BubbleSort;/** * 二路归并排序 * 时间复杂度为：O(nlogn) * Author: LiHao * Time: 2018/12/13 14:13 */p...

2018-12-14 16:08:58 113 1

原创数据结构-*-堆排序

package per.lihao.sort.complexsort;import per.lihao.sort.SortSequence;import per.lihao.sort.simplesort.BubbleSort;/** * 堆排序 * 时间复杂度：O(nlog2n) * Author: LiHao * Time: 2018/12/7 10:33 */publi...

2018-12-11 10:21:29 144 1

原创数据结构-*-希尔排序

package per.lihao.sort.complexsort; import jdk.nashorn.tools.Shell; import per.lihao.sort.SortSequence; import per.lihao.sort.simplesort.BubbleSort;/** * 希尔排序又叫做缩小增量排序，是插入...

2018-12-07 10:27:53 142

原创数据结构-*-简单排序

简单排序原理比较简单，后续补充生成数据package per.lihao.sort;import java.util.Random;/** * Author: LiHao * Time: 2018/12/5 10:09 */public class SortSequence { private int MAXSIZE = 10; private int[] m...

2018-12-05 15:06:05 474

原创机器学习-*-DBSCAN聚类及代码实现

DBSCANDBSCAN(Density-Based Spatial Clustering of Applications with Noise，具有噪声的基于密度的聚类方法)原理首先描述以下几个概念，假设我们有数据集D={x1,x2,x3,...,xn}D=\{x_1,x_2,x_3,...,x_n\}D={x1,x2,x3,...,xn}，则1.ϵ\epsilonϵ邻域：对于∀...

2018-11-28 16:46:38 3543

原创机器学习-*-MeanShift聚类算法及代码实现

MeanShift该算法也叫做均值漂移，在目标追踪中应用广泛。本身其实是一种基于密度的聚类算法。主要思路是：基于某一点的周围半径R内的点向量，计算出该点下一步移动的路线。当该点不再移动时，计算其与历史类簇的距离，满足阈值要求的即合并，不满足则自身形成一个类簇。本身有改进的核方法，这里不阐述了。后续会加上有时间补充概念，先上代码及实验结果：Python代码#!/usr/bin/pytho...

2018-11-26 17:58:17 2859 3

原创机器学习-*-K均值聚类及代码实现

KMeans聚类在聚类算法中，最出名的应该就是k均值聚类(KMeans)了，几乎所有的数据挖掘/机器学习书籍都会介绍它，有些初学者还会将其与KNN等混淆。k均值是一种聚类算法，属于无监督学习的一种，而KNN是有监督学习/分类学习的一种。聚类：顾名思义，就是讲某些相似的事物聚在一起，形成一个类。这里就涉及到几个概念1.如何表示一个事物？通常我们会准备好一个数据集，里面是我们的数据，每一行代表的...

2018-11-26 14:29:35 3648 10

原创深度学习-*-RNN正向及反向传播

RNN简介RNN（循环神经网络）是深度神经网络中，应用最广泛的两种神经网络架构之一。并且，作为一种时序结构的神经网络，RNN经常用于时序相关的问题中，且在NLP中应用广泛。还有一种RNN称为递归神经网络，虽然名字类似，但是却是不一样的架构。RNN图示xtx_txt是输入层数据，sts_tst是隐含层数据，oto_tot是输出层数据，我们令：每一个yty_tyt是t时刻对应的真实输出...

2018-11-25 21:47:16 2292 1

原创深度学习-*-tensorboard错误记录

在启动时命令行输入 tensorboard --logdir=/home/… 其中/home…是路径不是字符串不能用引号括起来

2018-11-15 17:49:47 207

原创机器学习-*-朴素贝叶斯

原理（先简单写一下，后续补公式，主要是贴上去代码）朴素贝叶斯有一个较强的前提条件：各个特征之间是独立的他的思想是利用贝叶斯定理来学习到数据的分布，属于生成模型的一种。他根据期望风险最小化推导出后验概率最大化，故可以用极大似然估计和贝叶斯估计来找到模型的参数。代码（numpy 矩阵输入）#!/usr/bin/python# -*- coding:utf-8 -*-&amp;quot;&amp;quot;&amp;quot;Author ...

2018-11-02 22:29:59 342

原创深度学习-*-正向及反向传播推导

正向传播如上图所示，这是一个全连接的三层神经网络，之所以说这个是3层，是因为包含了2个隐藏层、1个输出层。输入层在这里我们不把他当做神经网络中的一层看待。这里，我们假设输入数据为XXX，输出为YYY。我们先看hidden layer 1，记权重参数为W[1]W^[1]W[1]...

2018-10-31 17:21:20 1481 1

原创机器学习-*-KNN最近邻分类

算法思想通俗易懂：需要预测的数据X与历史数据做距离计算，找到距离最小的排名前K的距离点，看一下这里面哪种类型最多，就判别为X属于哪一类。直接上代码：这里利用了TensorFlow中的MNIST手写数字数据集#!/usr/bin/python# -*- coding:utf-8 -*-&amp;quot;&amp;quot;&amp;quot;Author LiHaoTime 2018/10/31 10:46&amp;quot;&a

2018-10-31 15:31:11 286

原创 NLP-*-jieba工具的使用

一分词支持三种分词模式：1.精确模式，试图将句子最精确地切开，适合文本分析;2.全模式，把句子中所有的可以成词的词语都扫描出来，速度非常快，但是不能解决歧义;3.搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。def test_cut(sentence): """ 测试分词三种模式 :param sentence: :...

2018-10-25 15:58:38 473

原创深度学习-*-梯度优化算法及代码实例

1 梯度下降算法想必大家对梯度下降或多或少有所了解，这里对他的原理就不再多说（其他教程说的比我好多了），只给出下列公式（按照吴恩达的深度学习课程中的公式）：W:=W−α∗dWW:=W-\alpha*dWW:=W−α∗dW b:=b−α∗dbb:=b-\alpha*dbb:=b−α∗db上述公式中dW与db为参数W与偏置b的梯度方向，α\alphaα为步长/学习速率，即一个超参。我们的任务就是通...

2018-10-19 14:58:01 1228

原创关于word2vec及文本相似性计算

关于word2vec及文本相似性计算最近2个月主要涉及到对文本相似度计算方法的实验，用了词频词袋模型、tfidf词袋表示、word2vec表示，利用一些标注好的数据对结果进行了检验，最终还是发现 tfidf相似度计算效果较好，但计算效率慢一些。也看到很多人说word2vec在相关语义计算方面有优势，不知道是不是我训练的模型有问题。。。有了解的大牛麻烦指点word2vec训练用...

2018-08-28 17:56:03 11968 9

原创青蛙跳台阶

之前面试遇到了这种题目，不会，后来搜索了一下，感觉分析的很好类型一青蛙跳一个N阶的台阶，每次可以跳1阶或者2阶，求跳完N阶y有多少种方法。分析： N=1,f(N)=1 N=2,f(N)=2 N=3,f(N)=3 N=4,f(N)=5 可以发现 f(N)=f(N-1)+f(N-2) 由此也可以推想：比如要跳到第4阶楼梯上，那么青蛙的前置位置要么在第2阶、要么在第3阶，即f(4)=f(3)+

2017-06-07 21:53:15 252

原创 python操作MongoDB

ps: 想查看mongodb的数据，可以下载Robomongo ->类似navicat的工具建立连接1，导入pymongo 2，导入 MongoClient 3，实例化Client，填入IP和Portimport pymongofrom pymongo import MongoClientclient = MongoClient('10.10.8.161',27017)使用数据库、集合d

2017-03-08 16:22:03 383

原创 ZKClient操作zookeeper集群

根据百度传课上的课程进行学习的zookeeper，记录一下zkclient的使用方法（1）连接zookeeperpackage com.lihao.zkClientTest;import org.I0Itec.zkclient.ZkClient;import org.I0Itec.zkclient.serialize.SerializableSerializer;public class Cr

2017-02-28 13:16:54 2303

原创用户贷款风险预测-datacastle竞赛题目

自己是大菜鸟一枚，datacastle比赛题目，根据别人的代码做的。用的是Logistic，做出的结果不好，目前只排在200多名。先放在博客上面，后续如果排名提上来了，再修改！加油！# -*- coding: utf-8 -*-"""Created on Tue Jan 10 09:54:12 2017###Datacastle的‘用户贷款风险预测’竞赛题目####初步想法是利用逻辑斯蒂回归

2017-01-10 15:27:10 7428 6

原创数据归一化的方法

数据特征之间往往有着不同的分布区间，差异较大的情况下会很大程度的影响数据分析的结果。为了消除这种现象的影响需要对原始数据进行归一化处理，使得各个指标处于同一数量级。（1）max-min归一化也叫离差标准化，是对原始数据的线性变换，使结果值映射到[0 - 1]之间。公式为： X=(X-min)/(max-min) max：最大值，min：最小值。（2）Z-score标准化这种方法给

2016-12-19 13:38:07 1558

原创项目笔记

.nav-bars 没能切换：bootstrap和JQuery引用时，JQuery必须放在bootstrap之前引用关于自己写的javascript脚本，根据情况放到body中使用

2016-11-16 18:16:13 349

原创 Redis+CentOS7.0安装配置

在CentOS7.0下配置Redis_3.0.6步骤（1）下载redis3.0.6，官网下载很慢，从别人那里copy过来的，链接http://pan.baidu.com/s/1o8Gsh0e （2）CentOS中，放到/usr/local/deploy/文件夹下， tar -zxvf 加压后进入该redis目录（3）执行make（前提是安装了gcc，没安装的直接 yum install gc

2016-11-12 12:03:08 376

原创配置Hadoop分布式集群二（亲测）

配置hdfs-site.xml<configuration> <property> <name>dfs.namenode.secondary.http-address</name> <value>nn1:50090</value> </property> <property> <name>dfs.replication</n

2016-11-02 18:23:03 318

原创配置Hadoop分布式集群一（亲测）

初入hadoop，个人备忘，如有错误，请见谅！准备虚拟机：安装3个centos7.0系统，连接方式为桥接，IP为161（主机）,162（从机）,163（从机） JDK：jdk-8u45 Hadoop版本：hadoop-2.7.2 安装虚拟机配置的方法见我之前发的另一篇博客http://blog.csdn.net/u013894072/article/details/51915190。安装J

2016-11-02 17:18:49 617