贝叶斯模型.docx
该文档包含生成模型、判别模型的区别,高斯判别模型与LR之间的关系,NB以及基于拉普拉斯平滑处理的NB的例子,EM算法流程及例子,最后以一个常见的垃圾邮件分类为例解释说明贝叶斯算法。
决策树.docx
利用不同的算法构建决策树,其中有基于信息增益的ID3、基于信息增益率的C4.5、以及二叉分类(回归)树,最后文档简单介绍了树剪枝的优缺点
正则化_过拟合.docx
该文档包含了过拟合产生的原因,解决方法,以及为什么引入正则化,L1和L2的区别、L1为什么产生稀疏矩阵等等,欢迎下载
读书笔记之16Attention机制说明及代码实现
AttentionModel的使用,利用Keras框架实现的,具体代码,以后会在GitHub上公布
读书笔记之9国际顶级会议
国际顶级会议的关系,NLP有自己的专属论文网站,还有个专门讨论学习的网站:我爱NLP
读书笔记之8文本特征提取之word2vec
文本预处理:分词,取出停用词,过滤低频词汇,编码归一化等;
文本向量化:如使用向量空间模型VSM(Vector Space Model)或者概率统计模型对文本进行表示,使计算机能够理解计算,用的方法基于集合论模型。基于代数轮模型。基于频率统计模型等等;
文本特征提取和选择:特征提取对应着特征项的选择和特征权重的计算。
读书笔记之7TF-IDF算法实现关键词抽取
TF-IDF(term frequency –inverse document frequency)频率—反文档频率,是一种用于咨询检索与咨询探勘的常用加权技术。TF_IDF是一种统计方法,用以评估一字词对于一个文件集成或一个语料库中的其中一份文件的重要程度。字词的重要性随着他在文件中出现的次数呈正比地增加,但同时也会随着它在语料库中出现的频率呈反比地下降。
读书笔记之6中文自言语言处理的完整流程
1、获取语料
2、预处理
3、特征工程
4、特征选择
5、模型训练
FundanNLP框架简单的使用笔记
FNLP是FuDanNLP的缩写,是复旦大学对汉语言处理的框架
中文分词Java(FuDNLP)及Python使用
分词工具的选择,jieba的三种模式、FunNLP、HanNLP分词工具的使用,解释了分词的流程
读书笔记2之中文分词流程HanLP
本文档简单介绍了中文分词流程,可以细入某个领域进行研究,但是,据了解,中文分词有很多框架了,其中采用C语言的哈工大自然语言处理实验室、有复旦大学的FNLP、有商业公司支持的HanLP、斯坦福大学的....等等,这些都是开源框架,可以查看里面的源码,选择一个框架,首先看他的在社区的活跃度,比如:查看GitHub中的star、再其次看他是否是开源的框架、再其次看易用性、广泛性
读书笔记1之语法语料库和语义知识库
本文档只是简单的介绍了自然语言处理的语法语料库和语义知识库相关知识。方便以后学习NLP的等等知识。
文档阅读地址:https://mp.csdn.net/postedit/81873670
创建型-抽象工厂模式(Abstract Factory)
抽象工厂模式(Abstract Factory Pattern):提供一个创建一系列相关或相互依赖对象的接口,而无须指定它们具体的类。抽象工厂模式又称为Kit模式,属于对象创建型模式。
JPA+Struts+MariaDB实现简单登录功能
JPA+Struts+MariaDB实现简单登录功能
Navicat for MariaDB+MariaDB驱动jar包
Navicat for MariaDB+MariaDB驱动jar包
HibernateJPA+Struts2.0+MariaDB实现登录功能
HibernateJPA+Struts2.0+MariaDB实现登录功能
JAVA设计模式(01):创建型-工厂模式【简单工厂模式】(Simple Factory)
JAVA设计模式(01):创建型-工厂模式【简单工厂模式】(Simple Factory)