文本分析
文章平均质量分 84
threegirl
这个作者很懒,什么都没留下…
展开
-
使用rabbitmq对文本使用tf_idf算法进行分析的项目记录
之前用爬虫爬了三个源,共爬取了30w左右的博客,爬虫项目:itmap_spiders。 接着对这些文本进行分析,要求是找出每篇文章的关键词。我对TF*IDF算法有一些了解,就选择了它。项目:itmap_data_analysis。 业务架构 由于数据量有点大,所以使用消息队列进行拆分,拆分标准是按照步骤来。具体的步骤如下图所示。 技术栈: 使用pika来与RabbitMQ连接...原创 2018-09-02 17:45:49 · 174 阅读 · 0 评论 -
对文本使用tf_idf算法进行分析的项目记录(二)
上回写的是使用消息队列来做这个项目,这次完全抛弃了它。 为什么抛弃呢? 我当初设想的是,步骤很明确,完全可以独立开,这样消息队列正好适配。 但是,我对处理速度和吞吐量没有明确的概念,导致如果用之前的方案的话,屈屈30w文章就能跑上好几天。 为什么会这么慢呢? 原因一,处理的个体太小。 按照我的设想每个文档每个步骤都会往队列里塞一个消息,结果导致处理的数据量巨大无比。如果能够...原创 2018-09-08 22:00:01 · 346 阅读 · 0 评论