苦海无量-CSDN博客

原创单向循环链表实现约瑟夫环（C语言）

#单向循环链表实现约瑟夫环#include <stdio.h>#include <stdlib.h> //提供malloc、free函数原型/* 结点数据域数据类型 */typedef int ElemType;/* 链表结点结构体 */typedef struct LNode{ ElemType data; //数据域 struct ...

2019-11-05 19:00:24 2816 4

原创词性标注和命名体识别

词性是词汇的基本属性，通常也称为词类。词性标注是在给定的句子判断每个词的语法范畴，并加以标注的过程。在中文中，一个词的词性往往会在不同的语境中有不同的词性，但是大多是词语一般只有一到两个词性，并且其中一个词性的使用频率一般远远大于另一个词性。目前主流的词性标注方法和分词一样，将词性标注看住一个序列标注问题解决。词性标注规范表自己去看，，，，，，，Jieba分词的词性标注这里使用结合规则...

2019-02-16 12:25:49 995

jieba分词值基于规则和统计这两类方法。其首先基于前缀词典进行词图扫描，前缀词典是指词典中的词按照前缀的包含顺序排列的，从而形成一种层级包含结构。这种前缀词典的好处便是可以快速构建包含全部可能分词结果的有向无环图，这个图包含多条分词路径，无环是指节点间不构成闭环。然后基于标注语料，使用动态规划算法可以找到最大概率路径，也就是分词结果。对于未登陆词，jieba使用了HMM模型，采用Viterbi算...

2019-02-11 19:02:54 713

原创中文分词技术--统计分词

因为大规模语料的建立，统计机器学习方法的研究与发展，基于统计的中文分词成为主流主要思想将每个词看做是由词的最小单位字组成的，如果相连的字在大量的文本中出现的次数越多，则说明这几个字组成词的概率越大。因此可以用字与字相邻出现的频率来反映成词的可靠度，统计语料中相邻出现的各个字的组合的频度，当组合频度高于某一个临界值时，我们便认为其构成一个词。步骤建立统计语言模型。对句...

2019-02-10 11:34:29 2356

原创中文分词技术--规则分词

规则分词一般有正向最大匹配法，逆向最大匹配法和双向最大匹配法正向最大分词法（Maximum Match Method,MM法）基本思想：假定分词词典中最长词有i个字符，则用被处理文档的当前字串中的前i个字作为匹配字段，查找字典。若字典中存在这样一个词，则匹配成功，匹配字段被作为一个词被切分出来。如果字典中找不到这样一个词，则匹配失败，将匹配字段的最后一个字去掉，对剩下的字串...

2019-02-09 21:03:57 752 1

原创 Numpy使用详解

numpy(numerical python)是高性能科学计算和数据分析的基础包，提供矩阵运算功能。要点创建numpy数组获取数组维度 numpy数组索引与切片 numpy数组比较替代值 numpy数据类型转换 numpy的统计计算方法创建numpy数组使用array方法一维 vector = numpy.array([1,2,3,4]) 二维 ...

2019-02-09 18:35:15 380

原创 NLP的基本手段--正则表达式

是什么？正则表达式是一种定义了搜索模式的特征序列，主要用于字符串的模式匹配，或是字符的匹配。正则表达式是处理NLP的最基本手段之一，其可以帮助我们在格式复杂的的文本中抽取所需要的信息。用来做什么？NLP通常所需要处理的预料一部分来自web网页的信息抽取，一部分来自文本格式的文档，但是它们的格式不统一，大部分为半结构化文本，因此需要处理它们，将其转变为结构化文本以便后续处理。正则表达...

2019-02-09 11:39:01 1387

原创模拟人工洗牌

C语言实现#include&amp;amp;amp;amp;lt;stdio.h&amp;amp;amp;amp;gt;#include&amp;amp;amp;amp;lt;stdlib.h&amp;amp;amp;amp;gt;struct card{ int pips; //从1到13. 1：A，11：J，12：Q，13：K char suit; //牌的花色。C：梅花 D：方块 H：红心 S：黑桃 }; st

2019-01-09 01:51:22 993

原创三天打鱼，两天晒网

c语言实现#include&lt;stdio.h&gt;struct date{ int year,month,day;};void main(){ struct date today,term; int yeardays =0,day; printf("Enter year month day: "); //输入年月日 scanf("%d %d %d",&amp;

2019-01-09 00:55:47 450

原创自然语言处理 NLP概述

1. NLP的概念：NLP是计算机科学领域以及人工智能领域的一个重要的研究方向，它研究用计算机来处理、理解以及运用人类语言（如中文、英文等），达到人与计算机的有效通讯。在人类社会中，语言扮演着一个重要的角色。在一般情况下，用户可能不熟悉机器语言，所以自然语言处理技术可以帮助这样的用户使用自然语言与机器交流。从建模的角度看，为了方便计算机处理，自然语言课一被定义为一组规则或符号的集合，我们组合集合...

2019-01-03 14:13:49 893

原创统计语言模型

学习笔记1参考书目：数学之美吴军著第二版统计语言模型统计语言模型是自然语言处理的基础，被广泛应用于机器翻译、语音识别、印刷体或手写体识别、拼音纠错、汉字输入和文献查询等。1.模型原型语言的数学本质就是说话者将一串信息在头脑中做了一次编码，编码的结果是一串文字，而如果接受的人懂得这门语言，他就可以用这门语言的解码方式获得说话人想表达的信息。那么不免想到将编码规则教给计算机，这就是基于...

2018-11-30 14:59:23 437