![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Python
旖旎人生
不以物喜,不以己悲
展开
-
通俗易懂的LDA模型
一、LDA模型的概念什么是LDA模型?LDA模型是一种无监督的贝叶斯模型,即不需要手工标注训练集。LDA模型也是一种典型的词袋模型,即认为一篇文章由许多个词组成,词与词之间没有先后顺序。LDA模型的输入为:训练文本,指定主题个数KLDA模型的输出为:每个主题Zk由哪些词组成及每个词的概率比如:组成主题Z1的前5个词的概率:0.007*"netanyahu" + 0.007*"m...原创 2019-01-14 20:48:32 · 12800 阅读 · 0 评论 -
《利用Python进行数据分析》系列一
由于在实践过程中感觉对Python的基础操作有些不熟悉,所以趁着这段时间加强下。这篇博客先对这本书做个总的简介,也是这本书第一篇文章的内容。主要目的: 使用Python对数据处理和清洗主要内容: numpy:第4章,高级用法在附录A pandas:第5章 matplotlib:第9章...原创 2019-08-05 21:42:26 · 270 阅读 · 0 评论 -
机器学习实战(一):逻辑回归预测
最近学习预测,先从最简单的入手,本文写最近利用机器学习中的逻辑回归算法实现的两个实际案例:1. 根据以往的申请表数据预测一个学生是否被大学录取2. 信用卡欺诈预测后边代码整理至我的github中,待续!!一、根据以往的申请表数据预测一个学生是否被大学录取数据如下:1. 数据分析通过数据分析得到数据均衡:总样本:100;正样本:60;负样本:40;由于是两个属性值...原创 2019-04-29 18:18:19 · 13129 阅读 · 3 评论 -
Keras框架(二):实现文本相似度的几种模型(代码)
根据已学的知识,将几种深度学习模型运用到自己最近的科研项目——文本相似度:使用框架:Keras模型:深度学习相关模型1. LSTM实现文本相似度:def get_model(nb_words, EMBEDDING_DIM, embedding_matrix, MAX_SEQUENCE_LENGTH, num_lstm, rat...原创 2019-04-23 11:50:11 · 5058 阅读 · 20 评论 -
深度学习(六):炼数成金的Tensorflow教程学习笔记(含代码)
由于自己的研究方向主要是文本处理、分类、预测。在学习了深度学习的基本代码后,最近实践文本相似度的相关深度模型的过程中,由于对Tensorflow框架的了解太少,在看别人写的代码的过程中,有些困惑,所以就抽出点时间学了一下Tensorflow框架。这里主要讲解学习炼数成金的Tensorflow视频教程的学习笔记。此视频课程的课程大纲如下:第一课 Tensorflow简介,Anaconda安装,...原创 2019-03-29 12:17:22 · 1013 阅读 · 0 评论 -
TypeError: 'encoding' is an invalid keyword arguent for this function
环境:python2.7报错代码:f = open(outp, 'w',encoding='utf-8')解决办法:import iof = io.open(outp, 'w',encoding='utf-8')原创 2019-03-28 22:38:37 · 225 阅读 · 0 评论 -
Gensim训练维基百科词向量模型(含代码)
由于平时会用到很多的文本预处理,这里就系统的讲解一下Gensim是如何训练维基百科词向量模型的!!其中训练好的模型,也就是最终生成的 **.model 文件,可以作为预训练词向量使用。训练维基百科词向量模型的代码参见我的github:https://github.com/ly987/NLP首先简单了解一下gensim:自定义两句话,分词,以分好词的句子作为输入,使用 gensim ...原创 2019-03-28 21:41:05 · 3253 阅读 · 2 评论 -
如何查看list的维度
在写神经网络代码过程中,总是有很多的矩阵变换,有很多时候矩阵是有list构成的,然而list又没有shape方法,无法直接查看list的维度。通过查找资料,我看到可以使用将其转化为数组的形式查看维度,代码如下:(np.array(list)).shape另外还有一个小tips:在调试代码时,可以加入:exit()这个代码可以让程序只允许这行代码前的程序,到这行代码就停止运行...原创 2019-03-27 18:26:42 · 22373 阅读 · 4 评论 -
ValueError: setting an array element with a sequence.
花费了我一天的时间来解决这个bug,必须好好记录记录,虽然懂了之后莫名觉得问题太小了!!!问题如下:具体为:loss, merged_result, _ = sess.run([sbl.loss_pure, merged, sbl.optimizer], feed_dict=feeds)原因:feeds的维度错误(我找了很多网上资料,后边才知道是feeds里边的参数维度前后不...原创 2019-03-27 18:19:38 · 761 阅读 · 1 评论 -
Keras框架(一):RNN实现mnist分类
由于在使用Tensorflow过程中,老是会碰到Keras框架写的模型,所以就稍稍学习了哈Keras框架。主要内容:RNN对mnist数据集进行分类主要框架:Keras主要代码:# 准备好数据:X_train、X_test、y_train、y_testmodel = Sequential()model.add(SimpleRNN( batch_input_shape...原创 2019-03-30 16:45:30 · 892 阅读 · 0 评论 -
深度学习(五):两个句子相似度相关模型学习
在这之前学习了使用Tensorflow框架,利用深度学习模型TextCnn和RnnAttention解决文本分类问题,这都是打基础的学习,我主要研究的是类案推送和量刑预测。所以这里我就开始踏入文本相似度计算模型的研究中。我主要参照的模板是:蚂蚁金融的一个NLP比赛。最近主要研究了LSTM模型、Bi-LSTM模型、ESSM模型、ESIM模型这四个模型。其中前边两个代码跑通了,后面两个模型还没弄透...原创 2019-03-30 16:19:31 · 2911 阅读 · 0 评论 -
深度学习(四):RnnAttention实现中文邮件分类(含代码)
此代码不是学习视频的相关代码,是自己根据学习中文邮件分类后自己实践写的代码。主要内容:实现中文邮件分类--也可扩展至多分类主要方法:Rnn+AttentionRNN部分代码如下:class RNNAttention(object): def __init__(self, text_length, nclasses, embedding_size, hidden_size,...原创 2019-03-30 15:51:26 · 722 阅读 · 0 评论 -
深度学习(三):中英文邮件分类(含代码)
主要内容:英文邮件分类、中文邮件分类【中英文邮件分类主要的区别在于embedding处,由于中文需要使用预训练词向量,而英文就不需要】主要方法:TextCnn一、英文邮件分类的代码实现class TextCNN(object): def __init__(self, text_length, nclasses, vocab_size, embeddin...原创 2019-03-30 15:42:47 · 1146 阅读 · 1 评论 -
深度学习(二):Mnist多种分类方法实现(含代码)
主要内容:手写字分类数据集:mnist涉及方法:逻辑回归、简单神经网络、CNN、LSTM一、逻辑回归逻辑回归示意图:代码:def LogicG(mnist, dim, nclasses): x = tf.placeholder("float32", [None, dim]) y = tf.placeholder('float32', [None...原创 2019-03-15 22:16:25 · 3905 阅读 · 0 评论 -
利用机器学习方法和深度学习方法实现文本分类
主要介绍内容:1. 文本分析:可视化2. 文本关键词提取3. 机器学习实现文本分类4. FastText实现文本分类5. 深度学习实现文本分类一、文本可视化——WordCloud库可以实现自定义图片形状的词云'''# 主要代码'''word_stat = word_df.groupby(by=['segment'])['segment'].agg({'计数...原创 2019-03-15 22:00:38 · 1332 阅读 · 0 评论 -
《利用Python进行数据分析》系列二——Numpy基础
这里主要讲下numpy的一些基础操作,即书籍的第4章内容。1. 创建数组对象的方式其他方式:# 创建10个全为0的数组np.zeros(10) # array([ 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])# 创建全为0的二维数组np.zeros((3, 6)) # array([[ ...原创 2019-08-05 22:12:38 · 245 阅读 · 0 评论