bensonrachel的博客

欢迎大家来到benson的技术博客。

自然语言处理(NLP)- HMM+VITERBI算法实现词性标注(解码问题)(动态规划)(Python实现)

NLP- HMM+维特比算法进行词性标注(Python实现)     维特比算法针对HMM解码问题,即解码或者预测问题(下面的第二个问题),寻找最可能的隐藏状态序列:对于一个特殊的隐马尔可夫模型(HMM)及一个相应的观察序列,找到生成此序列最可能的隐藏状态序列。也就是说给定了HMM的模型参数和一...

2018-11-18 20:42:54

阅读数 411

评论数 0

关于各种计算机字符编码的笔记

  又一年的七月来了   各种字符编码的出现次序: 1.ANSI 的”Ascii”编码; 2.GB2312;GB2312 是对 ASCII 的中文扩展; 3.GBK;GB2312+20000. 4.GB18030:GBK+几千; 5.(2.3.4)为DBCS(双字节字符集); 6.UNIC...

2018-11-03 14:13:17

阅读数 84

评论数 0

自然语言处理(NLP)——使用NLTK包验证齐夫定律及使用wordnet

第一题,利用大文本验证“齐夫定律”的正确性,首先我们使用pycharm作为集成开发环境,python3.5+nltk来做实验。 齐夫定律:齐夫定律(英语:Zipf's law)是由哈佛大学的语言学家乔治·金斯利·齐夫(George Kingsley Zipf)于1...

2019-05-17 23:12:44

阅读数 9

评论数 0

研读论文报告—《大规模英语动词多词表达式注释语料库的构建》

论文出处:2018paper of LREC http://www.lrec-conf.org/proceedings/lrec2018/pdf/394.pdf 背景:多次表达式的复杂以及出现率非常大。动词表达式的歧义问题以及前人工作较为少。一般都做名词多词表达式。 基于上述背景...

2019-04-19 13:28:15

阅读数 92

评论数 0

语料库技术与应用—基于维基百科构建日语平行语料并爬取谷歌翻译语音(mp3)

准备:wikipedia-parallel-titles项目(老师给的) This document describes how to use these tools to build a parallel corpus (for a specific language pair) ba...

2019-03-22 21:33:46

阅读数 75

评论数 0

数字签名和数字证书究竟是什么?

一篇看过好几遍的文章,一直没有机会写个总结什么的,久了也容易忘记,又得重新看一遍。 我们经常会见到数字签名和数字证书的身影,比如访问一些不安全的网站时,浏览器会提示,此网站的数字证书不可靠等。那么究竟什么是数字签名和数字证书呢?(文章在后) 那就...现在来写写总结吧。 实际见面:123...

2019-02-07 14:43:05

阅读数 43

评论数 0

python实现——Jaccard相似度(jaccard_coefficient)

 Jaccard相似度的python实现; #import numpy as np #from scipy.spatial.distance import pdist#直接调包可以计算JC值 :需要两个句子长度一样;所以暂时不用 import jieba def Jaccrad(mode...

2019-01-13 20:08:53

阅读数 1291

评论数 0

自然语言处理(NLP)- 一个英文拼写纠错系统

功能:给出拼写错误的单词,返回一个正确的单词,或者返回一个与输入单词最接近的单词; IDE:pycharm;python3.5;PYQT做界面; 数据: 使用big.txt作为语料库。 主要算法原理:   编辑距离(这里使用的是替换操作算一次开销的版本,跟插入和删除等价): ...

2018-12-20 17:42:14

阅读数 765

评论数 0

自然语言处理(NLP)- 建立一个搜索引擎(信息检索系统)的点点滴滴

 自然语言处理(NLP)- 建立一个搜索引擎(信息检索系统)的点点滴滴 教程在最底下 代码: 建索引:   搜索:                       bensonrachel简书教程...

2018-12-17 14:26:40

阅读数 626

评论数 0

《互联网程序设计(Java)》——课程笔记14:RMI远程对象程序设计一

问题背景: 软件更新或升级是软件发布和安装后的一种常态,比如现在的APP应用。更新或升级在2种情况下发生,一是新增软件功能,二是修补软件漏洞(BUG)。 基于客户/服务器的软件系统(C/S软件),需要分别开发和分别安装在客户端和服务器端 ,客户端软件在发布后要更新通常比较困难,除非有互联网连接...

2018-12-15 00:08:36

阅读数 66

评论数 0

《互联网程序设计(Java)》——课程笔记13:基于Java的网络数据库程序设计

网络数据库程序设计就是利用网络共享(或操作)远程服务器数据库中的数据,从而实现基于网络数据库的互联网络应用。 数据库一般位于异地的服务器上,客户端应用程序用JAVA语言书写。数据库和JAVA开发环境的关系如图1所示。   图1 JAVA与数据库 Java语言要操作数据库,其中间需要“J...

2018-12-05 15:45:48

阅读数 83

评论数 0

自然语言处理(NLP)-统计句法分析(CKY算法用于PCFG下的句法分析)

1.先解释何为CFG及PCFG: 一个栗子: 2.CKY算法(或称CYK算法) “在计算机科学领域,CYK算法(也称为Cocke–Younger–Kasami算法)是一种用来对 上下文无关文法(CFG,Context Free Grammar)进行语法分析(parsing)的...

2018-12-02 19:59:13

阅读数 451

评论数 0

《互联网程序设计(Java)》——课程笔记12:网络安全程序设计二、三(网络数据包捕获与发送程序)

通常情况下网卡(工作在链路层)只往上层(网络层)传递3类包:广播包、与自己IP地址一致的单播包、已加入某组的组播包,在这种情况下,高层应用只能收到上述3类数据包。我们前几讲的程序设计工作,包括基于TCP Socket的网络应用(网络聊天、FTP、Email及HTTP),以及基于UDP Socket...

2018-11-30 23:00:19

阅读数 137

评论数 0

组网技术—VLAN&TRUNK&VTP

问题: 1 VLAN含义? 把地理位置不在一起的设备逻辑上划分到一起。 2 划分VLAN优点? 管理方便; 安全 一、VLAN的定义及特点 虚拟局域网(VLAN)是一组逻辑上的设备和用户,这些设备和用户并不受物理位置的限制,可以根据功能、部门及应用等因素将它们组织...

2018-11-18 22:20:23

阅读数 96

评论数 0

《互联网程序设计(Java)》——课程笔记11:网络安全程序设计一

学会主机及端口等一些基本的网络扫描程序设计技术。 目标主机扫描是网络功防的基础和前提,扫描探测一台目标主机包括:确定该目标主机是否活动、目标主机的操作系统、正在使用哪些端口、对外提供了哪些服务、相关服务的软件版本等等,对这些内容的探测就是为了“对症下药”,为攻防提供参考信息。 对主机的探测工具...

2018-11-15 21:52:43

阅读数 135

评论数 0

《互联网程序设计(Java)》——课程笔记10:Http程序设计

1、概论 HTTP系统包括客户端软件(浏览器)和服务器软件(HTTP服务器)。早期的客户端软件,其主要工作可理解为文件下载和文件显示。 实际上现代的HTTP客户端比文件下载要复杂得多,它包括网页文件的下载、跨平台的本地显示,参数的传递,动态网页的实现,以及交互等功能。 HTTP系统程序设计包...

2018-11-08 23:08:05

阅读数 49

评论数 0

python-Rouge_N-评估模型的实现

引用:Rouge(Recall-Oriented Understudy for Gisting Evaluation),是评估自动文摘以及机器翻译的一组指标。它通过将自动生成的摘要或翻译与一组参考摘要(通常是人工生成的)进行比较计算,得出相应的分值,以衡量自动生成的摘要或翻译与参考摘要之间的“相似...

2018-11-07 21:31:32

阅读数 593

评论数 0

自然语言处理(NLP)-基于概率最大化的中文分词算法(Java实现)

摘要:平台使用Netbeans搭载JDK1.8环境编程。实现基于概率最大化的中文分词算法并集成于一个窗体平台(如下图)。字典使用WordFrequency.txt;                                      理论描述: 最大概率法分词是在最大匹配分词算法上的改...

2018-11-03 14:11:48

阅读数 595

评论数 0

《互联网程序设计(Java)》——课程笔记9:邮件发送程序设计

学会网络邮件发送的程序设计技术。      网络程序设计的精髓是什么?    就是客户端和服务器的对话和响应契约(协议)。 简单邮件传输协议SMTP可以很好地诠释这一点。    邮件传输协议包括SMTP(简单邮件传输协议,RFC821)及其扩充协议MIME;    邮件接收协议包括POP3...

2018-11-03 10:12:56

阅读数 278

评论数 0

python—Rouge(Recall-Oriented Understudy for Gisting Evaluation)

匹配文本评估方法。python实现 准确率,召回率 X表示模型生成的结果,Y表示运营编辑的结果即reference。多reference的情况,取对应每个reference中最大的rouge-l值作为单个测试数据的结果。LCS 表示最长公共子串。 # coding:utf-8 ''' ...

2018-11-02 21:20:54

阅读数 198

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭