![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python
文章平均质量分 77
CaiNiaoWuZui
这个作者很懒,什么都没留下…
展开
-
把知乎丁香医生的文章及回答转pdf
之前爬取了1800多万的知乎用户,因而想生成pdf方便保存和阅读,正好试试wkhtmltopdf+pdfkit是否好用。1:pdfkit是wkhtmltopdf的python封装,因此需要先下载安装wkhtmltopdf,版本wkhtmltopdf-0.12.2.4_mingw-w64,下载地址为[这里写链接内容](http://download.csdn.net/download/cainiao原创 2017-10-18 01:48:09 · 3240 阅读 · 0 评论 -
python多线程编程之异步委托
多线程编程一向是难点,也容易出问题。之前c#中异步委托用的很爽,python中如何实现类似效果呢? 上面的流程图中,在接收数据之后,启动一个清洗数据的线程,然后不必等待清洗结果继续接收数据。同样,在清洗数据时,启动一个保存数据的线程,然后不必等待保存结果继续清洗数据。 由于python中父线程结束时,子线程也会跟着结束。因此我这里把接收数据,清洗数据,保存数据分别放入三个不同的线程池原创 2017-10-28 04:55:57 · 674 阅读 · 0 评论 -
免费代理爬虫遭遇JavaScript
爬虫过程经常会遇到JavaScript反爬虫,如果JavaScript代码可读性强,那么写出相应的python代码,效率是最高的。如果JavaScript代码可读性非常差,也可以考虑使用基于selenium的phantomjs。本文采用的是第一种。原创 2017-10-28 04:58:03 · 1593 阅读 · 0 评论 -
1800万知乎用户的爬取
1800万知乎用户的爬取近日爬取了知乎1800万个用户,记录其主要过程爬取工具:python3+scrapy+redis+mongo 知识要点:python3,scrapy-redis框架,redis数据库,mongo数据库,http请求,正则表达式,xpath,https代理。 爬取思路:从过百万粉丝的张佳伟/李开复等几个知乎大V开始爬取,递归爬取关注列表和粉丝列表。原创 2017-10-17 01:23:56 · 1739 阅读 · 1 评论