自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 资源 (2)
  • 收藏
  • 关注

原创 NLP(09)_文本表示

第3门:文本表示第1章:文本词与句的表示1.文本表示概述文本表示,简单的说就是不将文本视为字符串,而视为在数学上处理起来更为方便的向量。而怎么把字符串变为向量,就是文本表示的核心问题。1.1 为什么要进行文本表示根本原因是计算机不方便直接对文本字符串进行处理,因此需要进行数值化或者向量化。便于机器学习。不仅传统的机器学习算法需要这个过程,深度学习也需要这个过程。良好的文本表示形式可...

2019-04-30 19:38:20 1056 1

原创 NLP(08)_RNN神经网络语言模型

从传统语言模型到神经网络语言模型我们将学习到如何使用KenLM工具构建语言模型,并使用它完成一个典型的“智能纠错”文本任务。参考资料:Andrej Karpathy的RNN博客Language Model: A Survey of the State-of-the-Art Technology我们从基于n-gram的传统统计语言模型,过渡到典型的前馈神经网络模型和循环神经网络模型。...

2019-04-28 14:11:43 799

原创 NLP(07)_统计语言模型

统计语言模型以下内容摘自和修改自吴军《数学之美》自然语言从它产生开始,逐渐演变成一种上下文相关的信息表达和传递方式。因此让计算机处理自然语言,一个基本问题就是为自然语言这种上下文相关的特性建立数学模型,这个数学模型就是在自然语言处理中常说的统计语言模型(Statistical Language Model)。它是今天所有自然语言处理的基础,并且广泛应用于机器翻译、语音识别、印刷体或手写体识...

2019-04-24 16:43:25 335

原创 NLP(06)_语言模型与应用

自然语言(Natural Language)其实就是人类语言,自然语言处理(NLP)就是对人类语言的处理,当然主要是利用计算机。自然语言处理是关于计算机科学和语言学的交叉学科,常见的研究任务包括:分词(Word Segmentation或Word Breaker,WB)信息抽取(Information Extraction,IE):命名实体识别和关系抽取(Named Entity Recog...

2019-04-23 09:14:57 481

原创 NLP(05)_中文文本基本任务与处理

中文文本基本任务与处理本文所用资料链接: https://pan.baidu.com/s/1KC1ya38fml1mlXYGBF0mIw 提取码: r76u1.分词对于中文和日文这样的特殊亚洲语系文本而言,字和字之间是紧密相连的,单纯从文本形态上无法区分具备独立含义的词(拉丁语系纯天然由空格分隔不同的word),而不同的词以不同的方式排布,可以表达不同的内容和情感,因此在很多中文任务中,...

2019-04-22 14:44:48 1534

原创 NLP(04)_英文文本处理与spaCy

英文文本处理与spaCyspaCy是Python和Cython中的高级自然语言处理库,它建立在最新的研究基础之上,从一开始就设计用于实际产品。spaCy 带有预先训练的统计模型和单词向量,目前支持 20 多种语言的标记。它具有世界上速度最快的句法分析器,用于标签的卷积神经网络模型,解析和命名实体识别以及与深度学习整合。0.英文Tokenization(标记化/分词)文本是不能成段送入模型...

2019-04-19 10:31:24 1351 2

原创 NLP(03)_英文文本处理与NLTK

英文文本处理与NLTKNLTK,全称Natural Language Toolkit,自然语言处理工具包,是NLP研究领域常用的一个Python库,由宾夕法尼亚大学的Steven Bird和Edward Loper在Python的基础上开发的一个模块,至今已有超过十万行的代码。这是一个开源项目,包含数据集、Python模块、教程等;NLTK是最常用的英文自然语言处理python基础库之一。

2019-04-18 15:11:01 1320

原创 NLP(02)_Python正则表达式

Python正则表达式正则表达式是处理字符串的强大工具,拥有独特的语法和独立的处理引擎。我们在大文本中匹配字符串时,有些情况用str自带的函数(比如index, find, in)可能可以完成,有些情况会稍稍复杂一些(比如说找出所有“像邮箱”的字符串,所有和xiniuedu/netease相关的句子),这个时候我们需要一个某种模式的工具,这个时候正则表达式就派上用场了。自然语言处理的各种模型...

2019-04-17 17:10:38 186

原创 NLP(01)_python基本文本处理操作

NLP处理的对象是文本字符串内容,大家需要熟悉一些基本的文本字符串操作,这里以python为例,帮大家复习以下的中英文字符串操作:替换截取复制连接分割排序比较查找包含大小写转换1. 清理与替换 en_str = " hello world, hello, my name is HanXiaoyang! "# 去空格及特殊符号 en_str.strip()...

2019-04-17 16:33:32 251

原创 268. 缺失数字

给定一个包含0, 1, 2, ..., n中n个数的序列,找出 0 ..n中没有出现在序列中的那个数。示例 1:输入: [3,0,1]输出: 2示例2:输入: [9,6,4,2,3,5,7,0,1]输出: 81. java实现class Solution { public int missingNumber(int[] nums) { ...

2019-04-10 22:20:06 99

原创 257. 二叉树的所有路径

给定一个二叉树,返回所有从根节点到叶子节点的路径。说明:叶子节点是指没有子节点的节点。示例:输入: 1 / \2 3 \ 5输出: ["1->2->5", "1->3"]解释: 所有根节点到叶子节点的路径为: 1->2->5, 1->3class Solution { public Lis...

2019-04-10 21:52:17 82

原创 统计学习方法-感知机学习的对偶形式

《统计学习方法》书中2.3.3关于感知机算法的对偶形式讲的不是很清楚, 从知乎上找到这一幅图,一目了然,分享给大家。

2019-04-10 15:39:57 235

原创 点到平面距离

2019-04-10 13:52:21 369

原创 235. 二叉搜索树的最近公共祖先

给定一个二叉搜索树, 找到该树中两个指定节点的最近公共祖先。百度百科中最近公共祖先的定义为:“对于有根树 T 的两个结点 p、q,最近公共祖先表示为一个结点 x,满足 x 是 p、q 的祖先且 x 的深度尽可能大(一个节点也可以是它自己的祖先)。”例如,给定如下二叉搜索树: root =[6,2,8,0,4,7,9,null,null,3,5]示例 1:输入: ro...

2019-04-10 09:32:33 109

原创 242. 有效的字母异位词

给定两个字符串s和t,编写一个函数来判断t是否是s的一个字母异位词。示例1:输入: s = "anagram", t = "nagaram"输出: true示例 2:输入: s = "rat", t = "car"输出: false说明:你可以假设字符串只包含小写字母。进阶:如果输入字符串包含 unicode 字符怎么办?你能否调...

2019-04-10 09:25:40 128

原创 21. 合并两个有序链表

将两个有序链表合并为一个新的有序链表并返回。新链表是通过拼接给定的两个链表的所有节点组成的。 示例:输入:1->2->4, 1->3->4输出:1->1->2->3->4->4/** * Definition for singly-linked list. * public class ListNode { * ...

2018-10-22 11:10:15 82

原创 20. 有效的括号

给定一个只包括 '(',')','{','}','[',']' 的字符串,判断字符串是否有效。有效字符串需满足:左括号必须用相同类型的右括号闭合。左括号必须以正确的顺序闭合。注意空字符串可被认为是有效字符串。class Solution { public boolean isValid(String s) { Map<Character, C...

2018-10-22 09:26:20 91

原创 14. 最长公共前缀

class Solution { public String longestCommonPrefix(String[] strs) { if(strs == null||strs.length == 0){ return ""; } if(strs.length == 1){ return strs[0]; } int length = st...

2018-10-21 17:00:10 81

原创 13. 罗马数字转整数

罗马数字包含以下七种字符 I: V, X, L,C, ,D和 M。字符 数值I 1V 5X 10L 50C 100D 500M 1000例如,罗马数字2写做 II,即为...

2018-10-21 11:27:03 100

simhei.ttf.zip

simhei.ttf,用于matplotlib的中文显示。当然也可以用于其他的用途。 simhei.ttf,用于matplotlib的中文显示。当然也可以用于其他的用途。simhei.ttf,用于matplotlib的中文显示。当然也可以用于其他的用途。

2019-05-16

清华大学 郑人杰、殷人昆著 实用软件工程(第3版)课件

此书适用于计算机专业的本科生、非计算机专业的本科生和研究生;“管理篇”适用于计算机专业的研究生和其他学习软件工程的专业人员,也可用作培训班的教材。 此资源是该书的配套课件 可以充当大纲使用 减少学习时间

2018-02-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除