- 博客(48)
- 资源 (12)
- 收藏
- 关注
原创 深度学习-*-Keras+TextCNN文本分类 基于Thucnews数据集
Thucnews数据集由于本地机器资源有限,所以仅拿出4W数据来做训练和测试我把thucnews数据存到了本地mongo数据集上如下所示(请忽略label 和lable 的字母拼写错误…)项目目录结构其中classify.py->分类主体文件classify_text.txt->测试样例,自己搜集的数据gpos-vocab->自己训练的词典库stopwords->停用词典text_util.py->对文本进行操作的工具thucnews.json->
2020-06-22 18:14:00 1303 1
原创 机器学习-*-聚类评价指标
直接上代码,参考论文《文本聚类分析效果评价及文本表示研究》#!/usr/bin/python# -*- coding:utf-8 -*-"""@Name cluster_metrics@Description 聚类评估方法@Date 2019/4/4"""import sysimport mathdef _find_dict_and_dataset(p_class =...
2019-04-04 15:23:40 694
原创 【大模型学习记录】安装Lanchain-chatchat环境的第三方包fschat出错的解决方案
记录大模型学习中的问题:解决fschat第三方包安装失败
2024-03-03 20:09:43 670
原创 ntpupdate更新IP
202.112.10.36该IP可用[root@localhost ~]# ntpdate 202.112.10.3614 Jan 11:20:38 ntpdate[3326]: step time server 202.112.10.36 offset -28829.215040 sec
2022-01-14 11:22:56 2490
原创 为jupyter notebook 增加运行环境kernel
然后conda activate XX环境安装ipykernel,pip install ipykernel然后输入python -m ipykernel --name XX 即可
2021-02-23 15:45:45 175
原创 NLP-*-NER实体识别模型
说明模型:BiLSTM+CRF框架:tensorflow 1.14.0硬件:RTX 2080Ti (11G)其他:采用BIO 标注的方式本人在NER方面没有实际经验,代码有不当之处 请各位看官指正代码目录如下:NERdatasetlabels.txttrain_datamodelsdatautil.pyner.pytrain.pyner.py# -*- coding:utf-8 -*-import osfrom tqdm import tqdmimpo
2020-11-11 19:08:30 328
原创 tensorflow-*-from tensorflow import keras 与 from tensorflow.python import keras
how to use keras in tf在版本tensorflow2.0+中有很多方式引入kerasimport tensorflow as tffrom tensorflow import keras# from tensorflow_core import keras# from tensorflow.python import keras# 使用第一种 from tensorflow import keras# 其余的两个与其还是有区别的,比如我在使用的时候model.fit时会报如
2020-06-19 17:02:31 6521
原创 NLP-*-Glove词向量原理
Glove词向量引入学习词向量有两种方法:局部和全局全局的代表有 LSA PLSA等局部的代表有 Word2Vec他们都有各自的缺陷,全局的没有利用好词之间的类比信息,局部的方法没有利用词全局的统计信息Glove词向量即利用了局部信息也利用了全局的统计信息,全名为:Global Vectors for Word Representation Jeffrey原理首先引入词汇的共现矩阵XXX,其中每一个元素XijX_{ij}Xij表示词汇jjj出现在词汇iii的上下文的次数总和,令Xi=ΣkX
2020-06-16 15:23:25 670
原创 机器学习-*-特征工程简述
简要说明一些特征工程方面用到的知识,关于一些原理没有深入讲解和研究,主要是对知识有一个系统性理解,当实际工作中遇到相应问题时可快速解决和分析特征归一化为什么需要特征归一化为了消除数据特征之间的量纲影响,我们需要对特征进行归一化处理,使得不同的指标之间有可比性我们一般会对数值类的特征进行归一化在训练中使用归一化,可以更快的找到最优解归一化常用的方法线性归一化Xnorm=X−XminXmax−XminX_{norm}=\frac{X-X_{min}}{X_{max}-X_{min}}Xnor
2020-06-12 17:45:35 199
原创 Bug记录-*-IDEA2019.2.4 Maven jar包引入问题
尼玛用idea自带的maven 可以下载一些jar 包括 spark、postgresql用了自己安装的maven-3.6.0 下载不了 其余的jar包一直觉得是maven的版本问题,奶奶的原来是IDEA的Maven setting 的Work Offline 要关闭!!不得不骂自己 SB...
2020-05-20 17:49:49 505 1
原创 数据结构与算法-*-暴力求解、分治法和线性方法对比(最大子数组)
对于最大子数组问题,这里写了两种方法进行求解,并给出对比图形进行对比,发现在我本机上大概数据规模在120以上,分治法开始优于暴力求解方法#!/usr/bin/python# -*- coding:utf-8 -*-"""Name : 4.1-3Describe: 最大子数组 暴力求解及分治法Author : LHDate : 2019/9/6"""import math...
2019-09-06 10:22:46 2353
原创 深度学习-*-TextCNN对头条文章进行分类
数据集–头条文章根据晚上搜集的数据资源-github地址:头条数据集处理该数据集的策略是 分词,抽词等,主要是通过原爬取者抽取的关键字和我从标题中抽取的关键字结合作为分类的特征词。模型参考的是网上的教程:import tensorflow as tfclass TextCNN(object): """ TextCNN model """ def __...
2019-03-28 14:21:16 591 1
原创 数据结构-*-二叉树基本结构与遍历算法
二叉树首先看节点的定义package per.lihao.tree;/** * @author : LiHao * @date : 2018/12/4 9:59 */public class TreeNode { /** * 关键字 */ private int data; /** * 左子树节点 */ pr...
2018-12-26 15:03:08 189
原创 机器学习-*-决策树
决策树决策树的学习一般需要3个步骤来实现:特征选择决策树的生成决策树剪枝在每一点所用的方法不同,得到的决策树算法就会不同。比如:特征选择方面:ID3选择信息增益作为准则(criterion) , C4.5用信息增益率作为准则,CART用基尼系数或者MSE(最小均方损失)作为准则。决策树生成方面:ID3 C4.5 是多叉树,每个节点是一种特征属性判断,各个节点特征属性不重复。而CA...
2018-12-19 15:32:36 207
原创 数据结构-*-快速排序
package per.lihao.sort.complexsort;import per.lihao.sort.SortSequence;import per.lihao.sort.simplesort.BubbleSort;/** * 快速排序 * 时间复杂度为O(nlogn),空间复杂度O(1) * 下面的方法是 递归填坑法,若要转化为非递归 需要利用栈存储各个子区间的范围...
2018-12-17 16:20:04 178
原创 数据结构-*-归并排序
package per.lihao.sort.complexsort;import per.lihao.sort.SortSequence;import per.lihao.sort.simplesort.BubbleSort;/** * 二路归并排序 * 时间复杂度为:O(nlogn) * Author: LiHao * Time: 2018/12/13 14:13 */p...
2018-12-14 16:08:58 131 1
原创 数据结构-*-堆排序
package per.lihao.sort.complexsort;import per.lihao.sort.SortSequence;import per.lihao.sort.simplesort.BubbleSort;/** * 堆排序 * 时间复杂度:O(nlog2n) * Author: LiHao * Time: 2018/12/7 10:33 */publi...
2018-12-11 10:21:29 166 1
原创 数据结构-*-希尔排序
package per.lihao.sort.complexsort; import jdk.nashorn.tools.Shell; import per.lihao.sort.SortSequence; import per.lihao.sort.simplesort.BubbleSort;/** * 希尔排序 又叫做缩小增量排序,是插入...
2018-12-07 10:27:53 171
原创 数据结构-*-简单排序
简单排序原理比较简单,后续补充生成数据package per.lihao.sort;import java.util.Random;/** * Author: LiHao * Time: 2018/12/5 10:09 */public class SortSequence { private int MAXSIZE = 10; private int[] m...
2018-12-05 15:06:05 492
原创 机器学习-*-DBSCAN聚类及代码实现
DBSCANDBSCAN(Density-Based Spatial Clustering of Applications with Noise,具有噪声的基于密度的聚类方法)原理首先描述以下几个概念,假设我们有数据集D={x1,x2,x3,...,xn}D=\{x_1,x_2,x_3,...,x_n\}D={x1,x2,x3,...,xn},则1.ϵ\epsilonϵ邻域:对于∀...
2018-11-28 16:46:38 3590
原创 机器学习-*-MeanShift聚类算法及代码实现
MeanShift该算法也叫做均值漂移,在目标追踪中应用广泛。本身其实是一种基于密度的聚类算法。主要思路是:基于某一点的周围半径R内的点向量,计算出该点下一步移动的路线。当该点不再移动时,计算其与历史类簇的距离,满足阈值要求的即合并,不满足则自身形成一个类簇。本身有改进的核方法,这里不阐述了。后续会加上有时间补充概念,先上代码及实验结果:Python代码#!/usr/bin/pytho...
2018-11-26 17:58:17 2899 3
原创 机器学习-*-K均值聚类及代码实现
KMeans聚类在聚类算法中,最出名的应该就是k均值聚类(KMeans)了,几乎所有的数据挖掘/机器学习书籍都会介绍它,有些初学者还会将其与KNN等混淆。k均值是一种聚类算法,属于无监督学习的一种,而KNN是有监督学习/分类学习的一种。聚类:顾名思义,就是讲某些相似的事物聚在一起,形成一个类。这里就涉及到几个概念1.如何表示一个事物?通常我们会准备好一个数据集,里面是我们的数据,每一行代表的...
2018-11-26 14:29:35 3709 10
原创 深度学习-*-RNN正向及反向传播
RNN简介RNN(循环神经网络)是深度神经网络中,应用最广泛的两种神经网络架构之一。并且,作为一种时序结构的神经网络,RNN经常用于时序相关的问题中,且在NLP中应用广泛。还有一种RNN称为递归神经网络,虽然名字类似,但是却是不一样的架构。RNN图示xtx_txt是输入层数据,sts_tst是隐含层数据,oto_tot是输出层数据,我们令:每一个yty_tyt是t时刻对应的真实输出...
2018-11-25 21:47:16 2327 1
原创 深度学习-*-tensorboard错误记录
在启动时 命令行输入 tensorboard --logdir=/home/… 其中/home…是路径 不是字符串 不能用引号括起来
2018-11-15 17:49:47 241
原创 机器学习-*-朴素贝叶斯
原理(先简单写一下,后续补公式,主要是贴上去代码)朴素贝叶斯有一个较强的前提条件:各个特征之间是独立的他的思想是利用贝叶斯定理来学习到数据的分布,属于生成模型的一种。他根据期望风险最小化推导出后验概率最大化,故可以用极大似然估计和贝叶斯估计来找到模型的参数。代码(numpy 矩阵输入)#!/usr/bin/python# -*- coding:utf-8 -*-"""Author ...
2018-11-02 22:29:59 360
原创 深度学习-*-正向及反向传播推导
正向传播如上图所示,这是一个全连接的三层神经网络,之所以说这个是3层,是因为包含了2个隐藏层、1个输出层。输入层在这里我们不把他当做神经网络中的一层看待。这里,我们假设输入数据为XXX,输出为YYY。我们先看hidden layer 1,记权重参数为W[1]W^[1]W[1]...
2018-10-31 17:21:20 1522 1
原创 机器学习-*-KNN最近邻分类
算法思想通俗易懂:需要预测的数据X与历史数据做距离计算,找到距离最小的排名前K的距离点,看一下这里面哪种类型最多,就判别为X属于哪一类。直接上代码:这里利用了TensorFlow中的MNIST手写数字数据集#!/usr/bin/python# -*- coding:utf-8 -*-"""Author LiHaoTime 2018/10/31 10:46"&a
2018-10-31 15:31:11 310
原创 NLP-*-jieba工具的使用
一 分词支持三种分词模式:1.精确模式,试图将句子最精确地切开,适合文本分析;2.全模式,把句子中所有的可以成词的词语都扫描出来,速度非常快,但是不能解决歧义;3.搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。def test_cut(sentence): """ 测试分词三种模式 :param sentence: :...
2018-10-25 15:58:38 501
原创 深度学习-*-梯度优化算法及代码实例
1 梯度下降算法想必大家对梯度下降或多或少有所了解,这里对他的原理就不再多说(其他教程说的比我好多了),只给出下列公式(按照吴恩达的深度学习课程中的公式):W:=W−α∗dWW:=W-\alpha*dWW:=W−α∗dW b:=b−α∗dbb:=b-\alpha*dbb:=b−α∗db上述公式中dW与db为参数W与偏置b的梯度方向,α\alphaα为步长/学习速率,即一个超参。我们的任务就是通...
2018-10-19 14:58:01 1277
原创 关于word2vec及文本相似性计算
关于word2vec及文本相似性计算最近2个月主要涉及到对文本相似度计算方法的实验,用了 词频词袋模型、tfidf词袋表示、word2vec表示,利用一些标注好的数据对结果进行了检验,最终还是发现 tfidf相似度计算效果较好,但计算效率慢一些。 也看到很多人说word2vec在相关语义计算方面有优势,不知道是不是我训练的模型有问题。。。有了解的大牛麻烦指点word2vec训练用...
2018-08-28 17:56:03 12037 9
原创 青蛙跳台阶
之前面试遇到了这种题目,不会,后来搜索了一下,感觉分析的很好类型一青蛙跳一个N阶的台阶,每次可以跳1阶或者2阶,求跳完N阶y有多少种方法。分析: N=1,f(N)=1 N=2,f(N)=2 N=3,f(N)=3 N=4,f(N)=5 可以发现 f(N)=f(N-1)+f(N-2) 由此也可以推想:比如要跳到第4阶楼梯上,那么青蛙的前置位置要么在第2阶、要么在第3阶,即f(4)=f(3)+
2017-06-07 21:53:15 272
原创 python操作MongoDB
ps: 想查看mongodb的数据,可以下载Robomongo ->类似navicat的工具建立连接1,导入pymongo 2,导入 MongoClient 3,实例化Client,填入IP和Portimport pymongofrom pymongo import MongoClientclient = MongoClient('10.10.8.161',27017)使用数据库、集合d
2017-03-08 16:22:03 402
原创 ZKClient操作zookeeper集群
根据百度传课上的课程进行学习的zookeeper,记录一下zkclient的使用方法 (1)连接zookeeperpackage com.lihao.zkClientTest;import org.I0Itec.zkclient.ZkClient;import org.I0Itec.zkclient.serialize.SerializableSerializer;public class Cr
2017-02-28 13:16:54 2333
原创 用户贷款风险预测-datacastle竞赛题目
自己是大菜鸟一枚,datacastle比赛题目,根据别人的代码做的。用的是Logistic,做出的结果不好,目前只排在200多名。先放在博客上面,后续如果排名提上来了,再修改!加油!# -*- coding: utf-8 -*-"""Created on Tue Jan 10 09:54:12 2017###Datacastle的‘用户贷款风险预测’竞赛题目####初步想法是利用逻辑斯蒂回归
2017-01-10 15:27:10 7497 6
原创 数据归一化的方法
数据特征之间往往有着不同的分布区间,差异较大的情况下会很大程度的影响数据分析的结果。为了消除这种现象的影响需要对原始数据进行归一化处理,使得各个指标处于同一数量级。 (1)max-min归一化 也叫离差标准化,是对原始数据的线性变换,使结果值映射到[0 - 1]之间。公式为: X=(X-min)/(max-min) max:最大值,min:最小值。 (2)Z-score标准化 这种方法给
2016-12-19 13:38:07 1776
原创 项目笔记
.nav-bars 没能切换:bootstrap和JQuery引用时,JQuery必须放在bootstrap之前引用关于自己写的javascript脚本,根据情况放到body中使用
2016-11-16 18:16:13 370
原创 Redis+CentOS7.0安装配置
在CentOS7.0下配置Redis_3.0.6步骤(1)下载redis3.0.6,官网下载很慢,从别人那里copy过来的,链接http://pan.baidu.com/s/1o8Gsh0e (2)CentOS中,放到/usr/local/deploy/文件夹下, tar -zxvf 加压后 进入该redis目录 (3)执行make(前提是安装了gcc,没安装的直接 yum install gc
2016-11-12 12:03:08 395
原创 配置Hadoop分布式集群二(亲测)
配置hdfs-site.xml<configuration> <property> <name>dfs.namenode.secondary.http-address</name> <value>nn1:50090</value> </property> <property> <name>dfs.replication</n
2016-11-02 18:23:03 348
原创 配置Hadoop分布式集群一(亲测)
初入hadoop,个人备忘,如有错误,请见谅!准备虚拟机:安装3个centos7.0系统,连接方式为桥接,IP为161(主机),162(从机),163(从机) JDK:jdk-8u45 Hadoop版本:hadoop-2.7.2 安装虚拟机配置的方法见我之前发的另一篇博客http://blog.csdn.net/u013894072/article/details/51915190。 安装J
2016-11-02 17:18:49 639
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人