Clairezcy-CSDN博客

原创 NLPer必会：bert+bilstm+CRF进行中文命名实体识别（NER）

1、命名实体识别由于有标注标签的存在，转化为多分类问题。标注标签本次训练集中为‘BIO’方式标注命名实体标注三种：人物，地点，组织机构标签共7个类别：B-PER,I-PER,B-LOC,I-LOC,B-ORG,I-ORG,O2、对于文本向量表示，如使用预训练模型BERT的向量：安装腾讯肖涵博士开发的Bert Server(bert-serving-server)和Client(bert-...

2020-02-27 16:04:52 8758 3

原创记录scrapy爬虫----经典豆瓣图书排行

记录之前学习scrapy爬虫框架时写的一个脚本，ps.发现很多学过的东东，如果不及时复盘记录，后面用的少了就淡忘了。。。所以把之前搞过的东东都搬上来，常看常新，耶！1、新建scrapy project:选定文件夹，shift+鼠标右键，打开powershell，输入scrapy startproject douban_book_crawler按照提示输入：cd douban_book_craw...

2020-02-19 12:10:27 616

原创文本摘要生成--用过的方法及原理思考

起初，由于工作需要，需要对大量技术文章进行分类并用一两句话描述关键内容，做成类似简报之类的报告给领导看，但是材料又多又长，不可能一篇篇去读，怎么办呢？最先想到的办法，就是抽取关键词，简单易行，就是后期需要自己梳理成句，当然还是需要浏览一遍文章，不过至少有的放矢了1、第一版：获取TFIDF最高的n个词汇，作为关键词提取；from sklearn.feature_extraction.text ...

2020-02-18 17:05:53 2185

原创【爬虫+文本分类】--新浪各类新闻标题，并用各类算法进行文本分类

自己设计的小项目，初始想法很简单，检验自己爬虫和nlp基本技能（分词、词向量（tokenize\onehot\tfidf\word2vec））和各类算法（朴素贝叶斯、svm、CNN、LSTM）掌握情况，进一步查漏补缺，提升工程能力和算法应用能力：）**第一部分：爬虫**分析新浪网各类新闻网页结构，应用requests库，爬取并解析新浪各类新闻，包括汽车、教育、金融、娱乐、体育、科技共六类...

2020-02-18 12:37:22 4261 10

原创爬虫--上市公司名称业绩及相关新闻

刚发现request-html库，比requests好用，之前用requests爬过新浪新闻标题，这次用request-html爬取网易财经上市公司名称业绩，和东方财富网的上市公司新闻内容crawler_entity.pyfrom requests_html import HTMLSessionimport csvimport osimport randomUSER_AGENT...

2020-02-17 15:49:55 805

原创 Transformer原理与self-attention过程详解

把手写笔记搬上来，以后就用博客进行学习记录了，加油！

2020-01-10 16:32:05 292

原创 Seq2Seq与Attention机制与pytorch实现双向GRU+attention encoder-decoder模型

把手写笔记搬上来，以后就用博客进行学习记录了，加油！所谓Attention机制，如用RNN作为encoder来学习输入序列，那么encoder上所有节点（词）隐藏层输出就相当于输入序列的背景变量（或者叫做query向量），寻找query与输出序列（或者叫做key向量）之间的权重关系，得出encoder上每个节点词与所有输出节点词之间的权重系数，进而计算某个输出节点输出值时就用该输出节点对应...

2020-01-10 16:31:54 3418 3

原创 FastText与Glove原理

把手写笔记搬上来，以后就用博客进行学习记录了，加油！

2020-01-09 14:24:40 226

原创 word2vec原理及论文代码复现

把手写笔记搬上来，以后就用博客进行学习记录了，加油！word2vec 总结1、两种方式：CBOW(context(w) --->w), skip-gram(w--->context(w)) 但其实这两个的区别只是CBOW中的center word作为context的mean，梯度下降法更新center word后，再以同尺度、同时更新所有context words；而sk...

2020-01-09 14:22:22 881

原创 NLP项目流程及思考逻辑

把手写笔记搬上来，以后就用博客进行学习记录了，加油！喜欢做NLP的项目，让机器读懂文字的感觉很奇妙。做过文本分类、摘要生成、机器翻译和NER，写代码的过程中细想来其实所谓人工智能，真的就是让计算机模仿人类的思考逻辑来完成运算。我们从小学习语言文字，都是从识字，组词到造句计算机学习文字，也要从字或词开始，到造句一、我们识字，无论中英文，对字义的理解，本质上都是用一些字去解释另...

2020-01-09 14:18:03 355

原创 language mode以及LSTM实现

把手写笔记搬上来，以后就用博客进行学习记录了，加油！n-gram语言模型，在我看来，有点类似于有监督机器学习里面的生成式模型，就是假设样本概率分布与总体概率分布相同，用样本的条件概率去估计总体的条件概率，样本的条件概率就用样本的P(y)/P(x,y)就行了，n-gram语言模型对某个词序列的概率计算方式与之类似，词序列的概率是由序列中每一节点的条件概率相乘得到，那么每一条件概率的计算...

2020-01-09 14:13:19 516

原创手推“逻辑回归的损失函数——交叉熵损失函数”

把手写笔记搬上来，以后就用博客进行学习记录了，加油！

2020-01-09 14:09:58 458

原创手推BP过程

以前不喜欢用电脑记录东西，总喜欢手写笔记，现在发现博客的好处，就把笔记都搬上来了

2020-01-09 14:08:11 426

转载常见回归和分类损失函数比较

本文转自https://www.cnblogs.com/massquantity/p/8964029.html记录下来，以备时时温故知新损失函数的一般表示为L(y,f(x))L(y,f(x)) ，用以衡量真实值yy 和预测值f(x)f(x) 之间不一致的程度，一般越小越好。为了便于不同损失函数的比较，常将其表示为单变量的函数，在回归问题中这个变量为y−f(x)y−f(x) ，在...

2020-01-09 13:35:06 646

转载神经网络之权重初始化

本文转载自https://blog.csdn.net/zhangbaoanhadoop/article/details/83042960记录下来，时时温故知新模型权重的初始化对于网络的训练很重要, 不好的初始化参数会导致梯度传播问题, 降低训练速度; 而好的初始化参数, 能够加速收敛, 并且更可能找到较优解. 如果权重一开始很小，信号到达最后也会很小；如果权重一开始很大，信号到达最后也会很...

2020-01-09 13:24:47 586

转载 PyTorch学习之 torch.optim 的6种优化器及优化算法介绍

内容转自Line_Walker的文章，链接https://blog.csdn.net/qq_36589234/article/details/89330342记录到自己博客中，以便温故知新这6种方法分为2大类：一大类方法是SGD及其改进（加Momentum）；另外一大类是Per-parameter adaptive learning rate methods（逐参数适应学习率方法），包括A...

2020-01-09 13:05:27 3091

原创 pytorch建立神经网络模型

学会利用torch.nn.Sequential、torch.nn.Module、torch.nn.MSEloss、torch.optim各包构建神经网络1、torch可利用已有Sequential结构直接生成网络，也可以继承Module来自定义网络2、损失函数一般回归模型可用MSEloss（最小二乘法）,二分类模型可用BCEwithLogitsloss（二分类交叉熵）,多分类模型可用Cros...

2020-01-09 12:50:33 749

原创用numpy自定义两层神经网络回归模型

菜鸟一枚，深度学习过程中，记录心得体会，如果有大神发现错的地方，还请麻烦告知，万分感谢！神经网络无非扮演着非线性拟合数据的角色，每一层可以看作是拟合一部分数据信息，直至将所有数据信息都学习出来，每个神经元都是线性函数与非线性激活函数（relu,sigmoid,tanh等）的组合，都有对应的参数要学习，层数及神经元数目越多，则参数数量越庞大，因为需要通过反向传递学习的损失，进而...

2020-01-03 16:01:56 705