2016年04月_tiki_taka_

07月 05月 04月

原创编写一个词法分析，对于输入的一段程序，可以获取该程序的单词符号。

编写一个程序，对于输入的一段程序，可以获取该程序的单词符号。单词符号的类别有基本字、标识符、常数、算符和界符。关键字为基本字，由字母组成，如int、for和while；变量名和函数名为标识符，由字母和数字构成，如fun1和age；固定不变的数值为常数，如12、13.86和25e8(科学计数法)；算符如+、-、*、/ 、%、&&；界符如 {、[、(、；和：等。如，若输出源程序如下， public static void main (String [] args) { double sum5

2016-04-27 20:36:46 2562 3

原创 1234，四个不同的数字组成多少种不同的数

java和c语言编写4个不同的数，共有多少种

2016-04-02 22:23:41 7108

贝叶斯模型.docx

该文档包含生成模型、判别模型的区别，高斯判别模型与LR之间的关系，NB以及基于拉普拉斯平滑处理的NB的例子，EM算法流程及例子，最后以一个常见的垃圾邮件分类为例解释说明贝叶斯算法。

2019-06-06

决策树.docx

利用不同的算法构建决策树，其中有基于信息增益的ID3、基于信息增益率的C4.5、以及二叉分类（回归）树，最后文档简单介绍了树剪枝的优缺点

2019-06-03

正则化_过拟合.docx

该文档包含了过拟合产生的原因，解决方法，以及为什么引入正则化，L1和L2的区别、L1为什么产生稀疏矩阵等等，欢迎下载

2019-05-24

读书笔记之16Attention机制说明及代码实现

AttentionModel的使用，利用Keras框架实现的，具体代码，以后会在GitHub上公布

2018-12-03

读书笔记之9国际顶级会议

国际顶级会议的关系，NLP有自己的专属论文网站，还有个专门讨论学习的网站：我爱NLP

2018-12-03

读书笔记之8文本特征提取之word2vec

文本预处理：分词，取出停用词，过滤低频词汇，编码归一化等；文本向量化：如使用向量空间模型VSM(Vector Space Model)或者概率统计模型对文本进行表示，使计算机能够理解计算，用的方法基于集合论模型。基于代数轮模型。基于频率统计模型等等；文本特征提取和选择：特征提取对应着特征项的选择和特征权重的计算。

2018-12-03

读书笔记之7TF-IDF算法实现关键词抽取

TF-IDF（term frequency –inverse document frequency）频率—反文档频率，是一种用于咨询检索与咨询探勘的常用加权技术。TF_IDF是一种统计方法，用以评估一字词对于一个文件集成或一个语料库中的其中一份文件的重要程度。字词的重要性随着他在文件中出现的次数呈正比地增加，但同时也会随着它在语料库中出现的频率呈反比地下降。

2018-12-03

读书笔记之6中文自言语言处理的完整流程

1、获取语料 2、预处理 3、特征工程 4、特征选择 5、模型训练

2018-12-03

FundanNLP框架简单的使用笔记

FNLP是FuDanNLP的缩写，是复旦大学对汉语言处理的框架

2018-12-03

中文分词Java（FuDNLP）及Python使用

分词工具的选择，jieba的三种模式、FunNLP、HanNLP分词工具的使用，解释了分词的流程

2018-12-03

读书笔记2之中文分词流程HanLP

本文档简单介绍了中文分词流程，可以细入某个领域进行研究，但是，据了解，中文分词有很多框架了，其中采用C语言的哈工大自然语言处理实验室、有复旦大学的FNLP、有商业公司支持的HanLP、斯坦福大学的....等等，这些都是开源框架，可以查看里面的源码，选择一个框架，首先看他的在社区的活跃度，比如：查看GitHub中的star、再其次看他是否是开源的框架、再其次看易用性、广泛性

2018-08-20