自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 收藏
  • 关注

原创 NLPer必会:bert+bilstm+CRF进行中文命名实体识别(NER)

1、命名实体识别由于有标注标签的存在,转化为多分类问题。标注标签本次训练集中为‘BIO’方式标注命名实体标注三种:人物,地点,组织机构标签共7个类别:B-PER,I-PER,B-LOC,I-LOC,B-ORG,I-ORG,O2、对于文本向量表示,如使用预训练模型BERT的向量:安装腾讯肖涵博士开发的Bert Server(bert-serving-server)和Client(bert-...

2020-02-27 16:04:52 8206 3

原创 记录scrapy爬虫----经典豆瓣图书排行

记录之前学习scrapy爬虫框架时写的一个脚本,ps.发现很多学过的东东,如果不及时复盘记录,后面用的少了就淡忘了。。。所以把之前搞过的东东都搬上来,常看常新,耶!1、新建scrapy project:选定文件夹,shift+鼠标右键,打开powershell,输入scrapy startproject douban_book_crawler按照提示输入:cd douban_book_craw...

2020-02-19 12:10:27 552

原创 文本摘要生成--用过的方法及原理思考

起初,由于工作需要,需要对大量技术文章进行分类并用一两句话描述关键内容,做成类似简报之类的报告给领导看,但是材料又多又长,不可能一篇篇去读,怎么办呢?最先想到的办法,就是抽取关键词,简单易行,就是后期需要自己梳理成句,当然还是需要浏览一遍文章,不过至少有的放矢了1、第一版:获取TFIDF最高的n个词汇,作为关键词提取;from sklearn.feature_extraction.text ...

2020-02-18 17:05:53 2002

原创 【爬虫+文本分类】--新浪各类新闻标题,并用各类算法进行文本分类

自己设计的小项目,初始想法很简单,检验自己爬虫和nlp基本技能(分词、词向量(tokenize\onehot\tfidf\word2vec))和各类算法(朴素贝叶斯、svm、CNN、LSTM)掌握情况,进一步查漏补缺,提升工程能力和算法应用能力:)**第一部分:爬虫**分析新浪网各类新闻网页结构,应用requests库,爬取并解析新浪各类新闻,包括汽车、教育、金融、娱乐、体育、科技共六类...

2020-02-18 12:37:22 4076 9

原创 爬虫--上市公司名称业绩及相关新闻

刚发现request-html库,比requests好用,之前用requests爬过新浪新闻标题,这次用request-html爬取网易财经上市公司名称业绩,和东方财富网的上市公司新闻内容crawler_entity.pyfrom requests_html import HTMLSessionimport csvimport osimport randomUSER_AGENT...

2020-02-17 15:49:55 722

原创 Transformer原理与self-attention过程详解

把手写笔记搬上来,以后就用博客进行学习记录了,加油!

2020-01-10 16:32:05 255

原创 Seq2Seq与Attention机制与pytorch实现双向GRU+attention encoder-decoder模型

把手写笔记搬上来,以后就用博客进行学习记录了,加油!所谓Attention机制,如用RNN作为encoder来学习输入序列,那么encoder上所有节点(词)隐藏层输出就相当于输入序列的背景变量(或者叫做query向量),寻找query与输出序列(或者叫做key向量)之间的权重关系,得出encoder上每个节点词与所有输出节点词之间的权重系数,进而计算某个输出节点输出值时就用该输出节点对应...

2020-01-10 16:31:54 3256 3

原创 FastText与Glove原理

把手写笔记搬上来,以后就用博客进行学习记录了,加油!

2020-01-09 14:24:40 186

原创 word2vec原理及论文代码复现

把手写笔记搬上来,以后就用博客进行学习记录了,加油!word2vec 总结1、两种方式:CBOW(context(w) --->w), skip-gram(w--->context(w)) 但其实这两个的区别只是CBOW中的center word作为context的mean,梯度下降法更新center word后,再以同尺度、同时更新所有context words;而sk...

2020-01-09 14:22:22 770

原创 NLP项目流程及思考逻辑

把手写笔记搬上来,以后就用博客进行学习记录了,加油!喜欢做NLP的项目,让机器读懂文字的感觉很奇妙。做过文本分类、摘要生成、机器翻译和NER,写代码的过程中细想来其实所谓人工智能,真的就是让计算机模仿人类的思考逻辑来完成运算。我们从小学习语言文字,都是从识字,组词到造句计算机学习文字,也要从字或词开始,到造句一、我们识字,无论中英文,对字义的理解,本质上都是用一些字去解释另...

2020-01-09 14:18:03 313

原创 language mode以及LSTM实现

把手写笔记搬上来,以后就用博客进行学习记录了,加油!n-gram语言模型,在我看来,有点类似于有监督机器学习里面的生成式模型,就是假设样本概率分布与总体概率分布相同,用样本的条件概率去估计总体的条件概率,样本的条件概率就用样本的P(y)/P(x,y)就行了,n-gram语言模型对某个词序列的概率计算方式与之类似,词序列的概率是由序列中每一节点的条件概率相乘得到,那么每一条件概率的计算...

2020-01-09 14:13:19 456

原创 手推“逻辑回归的损失函数——交叉熵损失函数”

把手写笔记搬上来,以后就用博客进行学习记录了,加油!

2020-01-09 14:09:58 393

原创 手推BP过程

以前不喜欢用电脑记录东西,总喜欢手写笔记,现在发现博客的好处,就把笔记都搬上来了

2020-01-09 14:08:11 380

转载 常见回归和分类损失函数比较

本文转自https://www.cnblogs.com/massquantity/p/8964029.html记录下来,以备时时温故知新损失函数的一般表示为L(y,f(x))L(y,f(x)) ,用以衡量真实值yy 和预测值f(x)f(x) 之间不一致的程度,一般越小越好。为了便于不同损失函数的比较,常将其表示为单变量的函数,在回归问题中这个变量为y−f(x)y−f(x) ,在...

2020-01-09 13:35:06 579

转载 神经网络之权重初始化

本文转载自https://blog.csdn.net/zhangbaoanhadoop/article/details/83042960记录下来,时时温故知新模型权重的初始化对于网络的训练很重要, 不好的初始化参数会导致梯度传播问题, 降低训练速度; 而好的初始化参数, 能够加速收敛, 并且更可能找到较优解. 如果权重一开始很小,信号到达最后也会很小;如果权重一开始很大,信号到达最后也会很...

2020-01-09 13:24:47 497

转载 PyTorch学习之 torch.optim 的6种优化器及优化算法介绍

内容转自Line_Walker的文章,链接https://blog.csdn.net/qq_36589234/article/details/89330342记录到自己博客中,以便温故知新这6种方法分为2大类:一大类方法是SGD及其改进(加Momentum);另外一大类是Per-parameter adaptive learning rate methods(逐参数适应学习率方法),包括A...

2020-01-09 13:05:27 2962

原创 pytorch建立神经网络模型

学会利用torch.nn.Sequential、torch.nn.Module、torch.nn.MSEloss、torch.optim各包构建神经网络1、torch可利用已有Sequential结构直接生成网络,也可以继承Module来自定义网络2、损失函数一般回归模型可用MSEloss(最小二乘法),二分类模型可用BCEwithLogitsloss(二分类交叉熵),多分类模型可用Cros...

2020-01-09 12:50:33 654

原创 用numpy自定义两层神经网络回归模型

菜鸟一枚,深度学习过程中,记录心得体会,如果有大神发现错的地方,还请麻烦告知,万分感谢!神经网络无非扮演着非线性拟合数据的角色,每一层可以看作是拟合一部分数据信息,直至将所有数据信息都学习出来,每个神经元都是线性函数与非线性激活函数(relu,sigmoid,tanh等)的组合,都有对应的参数要学习,层数及神经元数目越多,则参数数量越庞大,因为需要通过反向传递学习的损失,进而...

2020-01-03 16:01:56 644

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除