说实话,因为我们学校的老师之前从事的都是图像识别工作。对NLP领域相对没有那么的熟悉,所以摆在我们面前的难度其实还是挺困难的。
就如上文所讲,我们爬虫各种网站准备数据的时间大约花了10多天左右。然后就是期间接触到了上述三种爬虫的方法,json,xpath,正则表达式。
*但是实际上正则表达式,我运用并没有很好。所以立一个flag,在整理完这个项目的之后再专门开一个帖子进行正则表达式的整理。 *
***下面一些资料为4年之间自然语言处理之间的演变,有些乱可以直接跳到我的下一篇文章调查之后的总结 ***
*因为前面主要是我自己从4年前开始整理的一些相关比赛和资料,最后下一篇博客才是确定我们需要实现的nlp的最终方案。所以非常的乱!!! *
- Bags of words—词袋模型
kaggle上关于词袋模型的入门项目
Bagofwords模型,也叫做“词袋”,在信息检索中,Bag of words model假定对于一个文本,忽略其词序和语法,句法,将其仅仅看做是一个词集合,或者说是词的一个组合,文本中每个词的出现都是独立的,不依赖于其他词是否出现,或者说当这篇文章的作者在任意一个位置选择一个词汇都不受前面句子的影响而独立选择的。
根据上述方法 词袋模型的一般步骤是
1.数据预处理
将每一句话中又含有<\br>的一些不需要的分隔符提前进行处理
2.文本分