- 博客(6)
- 资源 (8)
- 收藏
- 关注
原创 网络爬虫之必备知识
摘要:本文主要理清网络爬虫的概念,简要讲解爬虫的必备知识,分为python基础、字符编码、http头信息、http状态码、html基础、爬虫职业道德。内容浅显,主要理一理相关知识。一、网络爬虫的概念 网络爬虫,又被称为网页蜘蛛,网络机器人,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。 通俗的说,我们写爬虫的目的就是自动从不同的网页上提取海量的数据。以下是我之前爬取的部分数据
2017-11-27 09:35:41 5618
原创 免费代理爬虫遭遇JavaScript
爬虫过程经常会遇到JavaScript反爬虫,如果JavaScript代码可读性强,那么写出相应的python代码,效率是最高的。如果JavaScript代码可读性非常差,也可以考虑使用基于selenium的phantomjs。本文采用的是第一种。
2017-10-28 04:58:03 1622
原创 python多线程编程之异步委托
多线程编程一向是难点,也容易出问题。之前c#中异步委托用的很爽,python中如何实现类似效果呢? 上面的流程图中,在接收数据之后,启动一个清洗数据的线程,然后不必等待清洗结果继续接收数据。同样,在清洗数据时,启动一个保存数据的线程,然后不必等待保存结果继续清洗数据。 由于python中父线程结束时,子线程也会跟着结束。因此我这里把接收数据,清洗数据,保存数据分别放入三个不同的线程池
2017-10-28 04:55:57 704
原创 把知乎丁香医生的文章及回答转pdf
之前爬取了1800多万的知乎用户,因而想生成pdf方便保存和阅读,正好试试wkhtmltopdf+pdfkit是否好用。1:pdfkit是wkhtmltopdf的python封装,因此需要先下载安装wkhtmltopdf,版本wkhtmltopdf-0.12.2.4_mingw-w64,下载地址为[这里写链接内容](http://download.csdn.net/download/cainiao
2017-10-18 01:48:09 3298
原创 1800万知乎用户的爬取
1800万知乎用户的爬取近日爬取了知乎1800万个用户,记录其主要过程爬取工具:python3+scrapy+redis+mongo 知识要点:python3,scrapy-redis框架,redis数据库,mongo数据库,http请求,正则表达式,xpath,https代理。 爬取思路:从过百万粉丝的张佳伟/李开复等几个知乎大V开始爬取,递归爬取关注列表和粉丝列表。
2017-10-17 01:23:56 1792 1
原创 执行效率
IF USED([Test]) USE IN TestENDIF CREATE CURSOR test(cName c(10),cCode c(10))PRIVATE m.Beginm.Begin=SECONDS()FOR m.j=1 TO 1000000 FOR m.i=1 TO FCOUNT("test") m.y=FIELD(i,[Test]) END
2010-04-30 16:27:00 476
机器学习-Mitchell-中文-清晰-超级详细目录版.pdf
2018-03-28
Learning From Data plus 完整版带目录 林轩田
2018-03-15
用Python写网络爬虫 高清完整PDF版+源码
2017-10-21
深度学习中文版
2017-10-15
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人