![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
NLP炼丹之路
newer-plus
这个作者很懒,什么都没留下…
展开
-
一知半解 --词向量(Word2Vec初步解读及代码实现)
目录词向量的来源word2vec简介词向量实战训练结果测试结束语参考文献词向量的来源NLP相关任务中最常见的第一步是创建一个词表库并把每个词顺序编号,这就是最初的one-hot模型,这种方法把每个词顺序编号,每个词就是一个很长的向量,向量的维度等于词表的大小,只有对应位置上的数字为1,其他都为0,例如一个词表[’ 我’,‘是’,‘谁’],那么这个词表的大小是3,每个词对应的向量为:我:[1,0,0]是:[0,1,0]谁:[0,0,1]而实际常用的模型是词袋模型,该模型仍以词语为基本处理单元原创 2020-05-12 23:09:05 · 2124 阅读 · 0 评论 -
python3多进程之间共享变量
python3多进程之间共享变量前言代码结束语前言前一篇博文尝试爬取百度百科词条作为语料,起初采用的是单进程多线程,但是速度很一般,根据爬虫的特点,属于IO密集型任务,用多线程肯定能提速,但并不是*n倍数的关系,多线程是利用一个线程阻塞的空闲让另一个线程来利用,但是python的特点,不会将线程映射到多个cpu上运行,那么在对网页数据的处理是需要消耗cpu资源的,如果利用多核cpu的优势,肯定...原创 2020-04-26 23:26:45 · 584 阅读 · 0 评论 -
爬取百度百科语料
python3爬取百度百科语料前言思路代码一些细节结果结束语前言迫于毕业压力,开始自学NLP(在一个研究院读研,早早开始实习,然而实习公司部门没有能支撑写论文的项目,想想还是挺坑的????♂️),看了一些资料,决定先开始从词向量入门吧,然而没有好的中文语料,虽然维基百科提供免费的中文语料,但是我看了一下,还要繁体转简体,巴拉巴拉的,并且国内用维基百科毕竟少数,所以估计语料的质量也不咋地,想着我们日...原创 2020-04-24 22:49:19 · 1090 阅读 · 0 评论