自然语言处理
张海玲
men proposes,god disposes.
展开
-
【python】文本处理——简单爬取网页、字符替换、文本分句
1.简单爬取网页这里以爬取易文言的《二十五史》为例,共有176篇。http://ewenyan.com/contents/more/esws.html代码如下:import requests #导入我们需要的库def GetName(url): #定义一个函数并且传入参数Url resp=requests.get(url);#//获取网页上的所有信息,以文本的模型返回 resp.en...原创 2019-11-30 21:44:38 · 1844 阅读 · 2 评论 -
简单语言模型——bigram neural network language model
bigram neural network language model计算:P(Wn∣Wn−1)P(W_n|W_{n-1})P(Wn∣Wn−1) 即P(W2∣W1)P(W_2|W_1)P(W2∣W1)词汇集: V=a,b,cV={a,b,c}V=a,b,c训练数据: {abc,acb,bca} ab,bc,ac,cb,bc,ca字符串转化成数字 ...原创 2019-10-24 21:25:35 · 1298 阅读 · 2 评论 -
gensim实现word2vec
word2vec模型假设给定一个长度为T的文本序列,设时间步t的词为w(t)。假设给定中心词的情况下背景词的生成相互独立,当背景窗口大小为m时,跳字模型的似然函数即给定任一中心词生成所有背景词的概率:∏t=1T∏−m≤j≤m,j≠0P(w(t+j)∣w(t))\prod_{t=1}^{T} \prod_{-m \leq j \leq m, j \neq 0} P\left(w^{(t+j)}...原创 2019-10-24 20:53:27 · 1466 阅读 · 0 评论 -
阿里云centOS7搭建JupyterLab
centOS搭建JupyterLabJupyterLab:程序员的笔记本神器。它是一个交互式的开发环境,其用于应对包含着notebook、代码以及数据的工作场景。JupyterLab能帮助我们有效地组织输入输出,将我们探索数据的过程记录下来,后续稍加整理便可以生成一篇报告或者博客。Jupyter Notebook支持Markdown,也支持Python、R甚至Julia等语言,完全可以支持一个...原创 2019-10-15 09:33:10 · 1404 阅读 · 1 评论 -
阿里云centOS7安装Nginx及简单配置
centOS7安装Nginx及简单配置Nginx是一款轻量级的Web服务器/反向代理服务器及电子邮件(IMAP/POP3)代理服务器,在BSD-like 协议下发行。其特点是占有内存少,并发能力强,事实上nginx的并发能力确实在同类型的网页服务器中表现较好,中国大陆使用nginx网站用户有:百度、京东、新浪、网易、腾讯、淘宝等。1.安装Nginx前的准备由于nginx的一些模块依赖一些li...原创 2019-10-15 09:27:44 · 3246 阅读 · 0 评论 -
阿里云centOS7安装Anaconda3
Centos7安装Anaconda3Anaconda指的是一个开源的Python发行版本,其包含了conda、Python等180多个科学包及其依赖项。Anaconda附带了一大批常用的数据科学包,不需要使用pip进行下载;自带的conda管理包和环境能减少在处理数据的过程中遇到的各种库和版本的问题。1.下载anaconda寻找所需版本下载,官网地址可能会比较慢,可以前往清华镜像源选...原创 2019-10-15 09:19:44 · 979 阅读 · 1 评论 -
语言模型N-Gram之KenLM环境的搭建
语言模型N-Gram之KenLM环境的搭建1 在windows下在windows下搭建的kenlm只能运用训练好的模型,不能训练模型。查资料了解到,若想在windows训练kenlm模型,理论上可以在cygwin(仿真linux操作系统)进行。但是,我折腾了好久好久好久,还是存在一系列的问题,固执的金牛座被打败了,转战linuxcygwincygwin是一个windows软件,该软件就...原创 2019-08-18 09:41:42 · 1644 阅读 · 1 评论 -
kenlm语言模型介绍
语言模型计算P(w1,w2,…,wn)P\left(w_{1}, w_{2}, \dots, w_{n}\right)P(w1,w2,…,wn)利用链式法则:P(A,B,C)=P(A)P(B∣A)P(C∣A,B)P(A, B, C)=P(A) P(B | A) P(C | A, B)P(A,B,C)=P(A)P(B∣A)P(C∣A,B)P(w1,w2,…,wn)=P(w1)P(w2∣w...原创 2019-08-17 13:23:26 · 2690 阅读 · 0 评论 -
java找出txt文本中最长/最短的句子,出现次数最多的句子,求平均句长,方差
找出文本中最长/最短的句子,出现次数最多的句子,求平均句长,方差。思路:(1)将文本按特定的方式进行切分(本文以。!?切分;(2)创建两个数组,数组1存放切分后每句话的长度,数组2存放切分后的每句话;(3)找最长句只需找到数组1中长度最长那一个,即可输出,最短同理;次数最多句子则需要遍历所有句子,找到相同的句子,对应的次数加1,最后输出次数最多那一个即可。(4)总字符长度除以总句子数即平...原创 2019-02-20 21:38:37 · 1161 阅读 · 0 评论 -
java对文章字符出现个数进行统计排序(TreeMap排序)
文章目录1.介绍Map2.TreeMap排序2.1根据TreeMap的key值来进行排序2.1.1根据key值的升序排序(默认)2.1.2根据key值的降序排序2.2根据TreeMap的Value值来进行排序2.2.1根据Value值的升序排序2.2.2根据Value值的降序排序3.实例:对《西游记》中的字符进行降序排序任务所涉及到的排序问题,由于需要对文本字符及文字字符出现的次数进行排序,相当...原创 2019-01-27 17:38:21 · 1002 阅读 · 0 评论 -
python中文分词之jieba分词的使用
文章目录1.特点2.安装说明安装示例下载:安装:测试:3.算法4.主要功能(1)分词(2)添加自定义词典载入词典调整词典(3)关键词提取一、基于 TF-IDF 算法的关键词抽取二、基于 TextRank 算法的关键词抽取小应用:查看《西游记》这本书的人物关系。(4)词性标注(5)Tokenize:返回词语在原文的起止位置(6)命令行分词中文分词的工具有很多种,例如HanLP、jieba分词、Fu...原创 2019-01-14 12:39:00 · 6333 阅读 · 0 评论