画心

记录生活,记录理解,记录理想。 繁琐中,有着难言之美。

我的豆瓣短评爬虫的多线程改写

对之前我的那个豆瓣的短评的爬虫,进行了一下架构性的改动。尽可能实现了模块的分离。但是总是感觉不完美。暂时也没心情折腾了。同时也添加了多线程的实现。具体过程见下。

2017-08-25 21:00:13

阅读数 583

评论数 3

xpath&css选择器

XPATH&CSS选择器

2017-08-24 13:09:33

阅读数 253

评论数 0

关于近期爬虫学习的总结

在之前的三篇文章中,我尝试了使用python爬虫实现的对于特定站点的《剑来》小说的爬取,对于豆瓣的短评的爬取,也有对于爬取的短评数据进行的词云展示,期间运用了不少的知识,现在是时间回顾一下。在此之后,我会再关注一些爬虫框架的使用,以及更多的爬虫的优化方法,争取做到尽量多的吸收新知识,巩固旧知识。在...

2017-08-20 21:31:51

阅读数 348

评论数 0

利用豆瓣短评数据生成词云

在之前的文章中,我们获得了豆瓣爬取的短评内容,汇总到了一个文件中,但是,没有被利用起来的数据是没有意义的。前文提到,有一篇微信推文的关于词云制作的一个实践记录,准备照此试验一下。

2017-08-18 17:54:05

阅读数 648

评论数 0

我的第一个豆瓣短评爬虫

豆瓣上有着大量的影视剧的评论,所以说,要是想要实现对广大人民群众的观点的分析,对一部片子的理解,综合来看大家的评论是很有必要的。而短评作为短小精干的快速评论入口,是值得一谈的。所以先要实现对其的数据的爬取。目前来看,基本内容是可以爬取的。最大的问题在于速度。后续考虑准备运用多线程的方式处理下。以及...

2017-08-17 16:50:20

阅读数 529

评论数 4

我的第一个完整的小说爬虫

纪念我的第一个爬虫程序,一共写了三个白天,其中有两个上午没有看,中途遇到了各种奇怪的问题,伴随着他们的解决,对于一些基本的操作也弄清楚了。果然,对于这些东西的最号的学习方式,就是在使用中学习,通过解决问题的方式来搞定这些知识。按需索取,才能更有针对性。大体记录下整个过程。准备构思出于对于pytho...

2017-08-13 21:33:38

阅读数 1795

评论数 0

GitHub入门

介绍了GitHub的大多数功能和使用

2017-08-10 10:04:18

阅读数 247

评论数 0

Git使用

介绍Git使用的大致流程。

2017-08-10 10:01:55

阅读数 203

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭