13线-CSDN博客

原创 Wrod2vec计算句子相似度实战_3分钟热情学NLP第7篇

3分钟热情学NLP第7篇，Wrod2vec计算句子相似度实战方法1，计算句子中各个词向量，得出句子的平均值1、使用jieba分词，得出该句子包含的词；2、计算每个词的词向量；3、求得该句子的平均值4、采用余弦值，计算各个句子的相似度；输入：import numpy as npfrom scipy import spatialimport jiebamodel = gensim.models.Word2Vec.load('word2vec_wx')model_dimensio

2021-02-03 17:09:44 453

原创如何在anaconda的环境下安装langchain

3、安装完成后，输入： python -c "import langchain;print(langchain.__version__)"2、在终端上，输入： conda install langchain -c conda-forge。如果返回了版本号，即表示安装成功了。1、安装anaconda；

2024-05-27 22:49:51 856 1

原创 NLP发展历程从Word2Vec,GloVe,ELMo,Flair,GPT,BERT

1、2013年，Word2vec模型，Google公司无监督模型，与语境无关2、2014年，GloVe模型，StanfordGLoVe：Global Vectors for Word Representation无监督模型，与语境无关3、2018年3月，ELMo模型，AllenNLP/NAACLELMo：embedding from language model与语境有关参考信息：2018年，AllenNLP的Matthew E. Peters等人在论文《Deep contex

2021-02-26 16:27:45 891

原创 Bert模型_3分钟热情学NLP第11篇

3分钟热情学NLP第11篇，Bert模型BERT ：Bidirectional Encoder Representations from Transformers)2018年的10月11日，Google AI的Jacob Devlin和他的合作者在arxiv上放上了他们的文章，名为《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》论文地址：https://arxiv.org/abs/1

2021-02-26 16:26:35 299

原创 ElMo模型_3分钟热情学NLP第10篇

3分钟热情学NLP第10篇，ELMo模型1、word2vec和glove面临的严重问题word2vec和glove面临的1个严重的问题是多义词问题。在Word Embedding 时，单词的向量值是唯一的，如中文“苹果”，英文“bank”，在训练时，这些多义词会被训练成“同义词”，即它们在模型中向量值是1个。word2vec无法表示多义。ElMo模型，可以有效地解决多义词问题。2、ElMo模型简介ELMO，Embedding from Language Models，对应的论文为：D

2021-02-26 16:25:32 186

原创 GloVe模型_3分钟热情学NLP第9篇

3分钟热情学NLP第9篇，GloVe模型GloVe的全称叫Global Vectors for Word Representation，它是一个基于全局词频统计（count-based & overall statistics）的词表征（word representation）工具，它可以把一个单词表达成一个由实数组成的向量，这些向量捕捉到了单词之间一些语义特性，比如相似性（similarity）、类比性（analogy）等。通过对向量的运算，比如欧几里得距离或者cosine相似度，可以计算出两

2021-02-26 16:24:26 145

原创 doc2vec计算句子相似度_3分钟热情学NLP第8篇

3分钟热情学NLP第8篇，doc2vec计算句子相似度word2vec面临的问题word2vec计算句子或长文本的方法，大致的是：1、对文本进行分词；2、计算各个分词的词向量；3、对词向量取平均值，或者其他方式进行词向量的拼接。显而易见，这样的的计算方法的缺点是：丢失了文本之间的语序比如：我喜欢小明，小明喜欢我。这2句话，语义不一样；但是通过上面的分词+词向量的方法，向量值是相同的。因此，在word2vec的基础上，有研究人员提出了文本向量的概念doc2vec2、doc2vec文

2021-02-26 16:22:41 402

原创 Wrod2vec计算句子相似度_3分钟热情学NLP第6篇

3分钟热情学NLP第6篇，Wrod2vec计算句子相似度参考文章：1、https://blog.csdn.net/joleoy/article/details/997411392、https://www.zhihu.com/question/299782681、无监督，句子相似度的计算方法无监督，即不需要额外的标注数据。通过词向量计算句子之间的相似度，大致有下面几种方法：1.1、求平均值比如一句话包含ABC共3个词汇，那么这句话的句向量值即为ABC的向量求和，再除以3；1.2、

2021-02-03 17:12:58 286

原创 Wrod2vec算法实战_3分钟热情学NLP第5篇

参考文章：https://blog.csdn.net/qq_30189255/article/details/1030495691、语料本文采用的语料：#将语料text8，保存在sentence中；text8有100mb大小；text8的下载地址：http://mattmahoney.net/dc/text8.ziptext8语料，已经按照空格进行分词，去掉了标点符号，无需进行预处理2、模型训练采用python的gensim包实现word2vec输入：from gen...

2021-01-19 22:42:25 223

原创 Wrod2vec算法_3分钟热情学NLP第4篇

第4篇：3分钟热情学NLP，word2vec在NLP领域，文本表示是第1步，也是很重要的1步。所谓文笔表示，即如何把自然语言的语言符合，转化成计算机能够处理的数字。文本向量化.png1、文本向量化现阶段，文本向量化，大部分是通过词向量化来实现的；也有一部分算法，将整篇文章或整条句子作为最小处理单位来实现文本向量化，如doc2vec；1.1、独热编码one-hotone-hot编码，是最直观的1个词表示方式。构建1个文本词典，每个分词是1个比特值，比特值为0或1。动物特征可表示

2021-01-19 22:38:51 150

原创关键词提取TextRank算法_3分钟热情学NLP第3篇

第3篇：三分钟热情学NLP-关键词提取TextRank算法TextRank算法，借鉴了PageRank的思想，或者可以直接理解成：TextRank是PageRank的2.0版。1、PageRank算法谷歌的2位创始人佩奇和布林，借鉴了评判论文重要性的方法（学术界，如果1篇论文被引用得越多，就会认为该论文越重要）来评价网页的重要性，概况来说就是2点：1、要数量。某个网页被越多网页链接的话，说明这个网页越重要，其对应的PageRank值越高；2、要质量。被PageRank值较高的网页A链接的网页

2021-01-19 22:34:13 277

原创关键词提取TF-IDF_3分钟热情学NLP第2篇

第2篇：三分钟热情学NLP-关键词提取TF-IDF一篇文章或1个文档中，哪些词对文章更重要？哪些词可以作为关键词？自动提取关键词可以快速地从海量的信息中提取和获取信息，下面简述下关键词提取技术。1、关键词提取的机器学习方法有监督的机器学习方法：构建1个丰富的词表，判断每个文档与词表中每个次的匹配程度，这种方法是准确高；缺点是维护词表和标注的成本高；无监督的机器学习方法：2个常见算法是TF-IDF算法和TextRank算法2、TF-IDF算法TF-IDF词频-逆文档概率，一般是指词频和逆

2021-01-19 22:27:10 180

原创 Jieba分词_3分钟热情学NLP第1篇

第1篇：三分钟热情学NLP-Jieba分词NLP，自然语言理解，即计算机对人类语言进行理解；NLP是人工智能皇冠上的明珠，是AI最难的领域之一；1、人类语言有多复杂人类语言是经过加工的，需要有有背景知识才能理解；比如“夏天能穿多少就穿多少，冬天能传多少就穿多少”“单身的原因是喜欢上一个人，还可能是喜欢上一个人”可见，语言理解是1道“很有门槛”的事情，理解句子，从分词开始，2、jieba分词-总览jieba的git主页https://github.com/fxsjy/jieba

2021-01-19 22:25:38 125

原创什么是中台系统？

查看百度指数，“中台”两字的搜索量从2019年5月21日后开始陡增。baidu2_1564455127254.png这天发生了什么？这天腾讯召开了“腾讯全球数字生态大会”，在会上，多位腾讯高管提到”开放中台能力，拥抱产品互联网“。至此，“中台”2个字开始频繁出现在资讯报道、公众号文章和知乎上。在2019年5月21日后的2个月内，在百度指数中，与“中台“相关的高频搜索词有：什么是中台系统、中台是什么意思、数据中台、中台系统、系统、互联网中台是什么意思、中台产品经理，业务中台、中台战略、中台...

2021-01-18 23:24:44 1368

原创 MAC上使用 mysql

1、打开终端；2、切入到mysql所在目录/usr/local/mysql/bin/mysql -u root -p3、安装提示输入mysql的root密码：4、进入到mysql命令行模式5、quit，退出命令行模式...

2019-11-07 21:50:07 95

原创 Python爬虫，使用BeautifulSoup爬取豆瓣电影TOP250电影信息（BeautifulSoup, lxml）

上一篇：Python爬虫，通过正则表达式爬取豆瓣电影TOP250的图片，https://blog.csdn.net/licx1988/article/details/102869923本篇，使用BeautifulSoup进行解析，解析库：BeautifulSoup解析器：lxml方法选择器：find()和find_all()BeautifulSoup的官方文档：https://w...

2019-11-02 20:24:41 2440

原创 Python爬虫，通过正则表达式爬取豆瓣电影TOP250的图片

本文，使用requests库。豆瓣电影TOP250排行的地址：https://movie.douban.com/top250?start=本次爬取，共分3个步骤：1、获取单个页面的HTMLhttps://movie.douban.com/top250?start=https://movie.douban.com/top250?start=252、对对个页面的HT...

2019-11-02 11:35:55 3016

原创 AWK-端对端时延-程序解读

一个简单的TCP程序，所产生的.tr文件+ 0.1 1 2 cbr 1000 ------- 2 1.0 3.1 0 0- 0.1 1 2 cbr 1000 ------- 2 1.0 3.1 0 0+ 0.108 1 2 cbr 1000 ------- 2 1.0 3.1 1 1- 0.108 1 2 cbr 1000 ------- 2 1.0

2012-11-26 17:12:08 933

原创 Ubuntu共享xp系统文件-Vm tools的安装

1，虚拟机配置中，CD-ROM挂载linux.iso(在vm安装目录下，选择linux.iso)2,拷贝tar.gz文件至安装目录下。运行tar解压命令。3，切换到解压后的文件夹vmware-tools-distrib4，安装VMware tool，命令：./ 5,安装好后，把虚拟机电源关闭6，在选项中添加共享文件夹，，然后再打开虚拟机电源7，在/mnt/hg

2012-10-29 19:34:29 518

原创 linux网络配置文件及其对应功能

hosts配置文件的功能是用来对用户所输入的IP地址进行域名解析工作。该文件的绝对地址为“/etc/hosts”hosts.allow配置文件的功能是用来集中管理被允许的用户访问端与服务器端连通的主机。该文件的绝对地址为“/etc/hosts.allow”hosts.deny配置文件的功能是用来集中管理不被允许的用户访问端与服务器端连通的主机。该文件的绝对地址为“/etc/hosts.de

2012-10-12 22:55:51 887

原创 Linux网络命令

1，ifconfig用户可以执行ifconfig命令，来检测和设置本机的网络接口。默认情况下执行该指令会显示第一块网卡，即eth0与本机回路（lo，local loopback）的配置信息。如果用户需要检测或设置本机的其他网络接口，只需要在该命令后注明网卡代号即可。该命令也可以将指定的网卡开启或关闭。例如，启动第一块网卡；关闭第一块网卡；用ping命令来验证网卡是否设置成功。执行命令：

2012-10-12 22:48:00 6676

原创快速排序C语言版

#includeint a[100]; void prt(int n){ int i; for(i=1;i printf("%d ",a[i]);} void quicksort(int a[],int l,int h){ int j,i,key; i=l;j=h;key=a[i]; while(i

2012-10-12 10:23:07 712

原创 IP私有地址

IP私有地址A：10.0.0.0- 10.255.255.255B:172.16.0.0- 172.31.255.255C:192.168.0.0- 192.168.255.255 127.0.0.1 环回地址。用于测试一个节点的IP栈，不能用作主机地址。

2012-10-12 09:42:09 669

13线coder