![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
网络爬虫
文章平均质量分 74
Guanngxu
Keep trying
展开
-
爬虫教程——用Scrapy爬取豆瓣TOP250
最好的学习方式就是输入之后再输出,分享一个自己学习scrapy框架的小案例,方便快速的掌握使用scrapy的基本方法。 本想从零开始写一个用Scrapy爬取教程,但是官方已经有了样例,一想已经有了,还是不写了,尽量分享在网上不太容易找到的东西。自己近期在封闭培训,更文像蜗牛一样,抱歉。Scrapy简介 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应...原创 2018-07-27 23:44:19 · 4166 阅读 · 0 评论 -
如何抓取微信公众号历史文章?使用订阅号实现微信公众号历史文章爬虫
微信公众号已经成为生活的一部分了,虽然里面有很多作者只是为了蹭热点,撩读者的 G 点,自己从中获得一些收益;但是不乏好的订阅号,像刘大的码农翻身、曹大的caoz的梦呓等订阅号非常值得阅读。 平时有时候看到一些好的公众号,也会不自觉去查看该公众号的历史文章,然而每次都看不完,下一次再从微信里面打开历史文章,又需要从头翻起。而且对于写了很多年的大号,每次还翻不到底。有一些平台提供了相关...原创 2018-10-04 11:54:27 · 8011 阅读 · 2 评论 -
python 截屏,合成 pdf
这篇文章接着使用订阅号获取微信公众号历史文章看。一般爬虫都选择去分析 html 源码,从中选择对我们有用的元素进行保存,但是这样很容易就把作者写文章时的排版给扔掉了,而且有的文章本身就使用了一些图片加以说明,为了保证原汁原味的阅读体验,尝试了一下直接截屏保存的效果还不错。网页截屏保存 selenium 库中 webdriver 已经提供了截屏功能,代码如下所示,但是使用之后发现,...原创 2018-10-07 21:35:55 · 1222 阅读 · 0 评论