- 博客(3)
- 资源 (2)
- 收藏
- 关注
原创 NLP之词袋模型二
在NLP之词袋模型一中介绍了最基本利用词袋模型(Bag of Words)进行词向量表达对方法,本文介绍几种提升词袋模型性能的方法。提升词袋模型性能的方法主要在以下几个方面:词袋的管理词向量表达方法的选择词袋的管理管理词袋包括:词袋的创建、词袋的维护。为了更好的管理词袋,我们首先考虑以下几个方面:词袋可能会很大,特别是当我们处理较多文本的时候。词袋很大的话,容易导致词向量比较...
2019-08-18 21:58:25 1981
原创 NLP之词袋模型一
声明:参考A Gentle Introduction to the Bag-of-Words Model词袋模型目的:将不定长的文本型数据转化为定长的数值型数据,以便用作机器学习模型的输入。用处:常用于文本建模和分类。优点:简单,易实现。缺点:不能考虑文本的结构和顺序。基本流程1. 获取全部文本以《双城记》中的一段话为例:It was the best of times,it...
2019-08-16 21:41:26 1527
原创 Python中的时间显示(time模块相关)
Python提供了time模块来帮助我们处理时间,但是刚刚接触这个模块时,会发现time模块中的时间类型有很多,也有各种转换函数,难以让人把握住重点。下面本文将介绍time模块中最常用的部分,有了它,在处理大多是python时间问题上都不用愁了。Python中的时间格式Python中有三种时间格式:float格式,即时间戳,每个时间戳都以自从1970年1月1日午夜(历元)经过了多长时间...
2019-08-03 12:37:24 1811
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人