CaiNiaoWuZui-CSDN博客

原创网络爬虫之必备知识

摘要：本文主要理清网络爬虫的概念，简要讲解爬虫的必备知识，分为python基础、字符编码、http头信息、http状态码、html基础、爬虫职业道德。内容浅显，主要理一理相关知识。一、网络爬虫的概念网络爬虫，又被称为网页蜘蛛，网络机器人，是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。通俗的说，我们写爬虫的目的就是自动从不同的网页上提取海量的数据。以下是我之前爬取的部分数据

2017-11-27 09:35:41 5618

原创免费代理爬虫遭遇JavaScript

爬虫过程经常会遇到JavaScript反爬虫，如果JavaScript代码可读性强，那么写出相应的python代码，效率是最高的。如果JavaScript代码可读性非常差，也可以考虑使用基于selenium的phantomjs。本文采用的是第一种。

2017-10-28 04:58:03 1622

原创 python多线程编程之异步委托

多线程编程一向是难点，也容易出问题。之前c#中异步委托用的很爽，python中如何实现类似效果呢？上面的流程图中，在接收数据之后，启动一个清洗数据的线程，然后不必等待清洗结果继续接收数据。同样，在清洗数据时，启动一个保存数据的线程，然后不必等待保存结果继续清洗数据。由于python中父线程结束时，子线程也会跟着结束。因此我这里把接收数据，清洗数据，保存数据分别放入三个不同的线程池

2017-10-28 04:55:57 704

之前爬取了1800多万的知乎用户，因而想生成pdf方便保存和阅读，正好试试wkhtmltopdf+pdfkit是否好用。1:pdfkit是wkhtmltopdf的python封装，因此需要先下载安装wkhtmltopdf，版本wkhtmltopdf-0.12.2.4_mingw-w64，下载地址为[这里写链接内容](http://download.csdn.net/download/cainiao

2017-10-18 01:48:09 3298

原创 1800万知乎用户的爬取

1800万知乎用户的爬取近日爬取了知乎1800万个用户,记录其主要过程爬取工具：python3+scrapy+redis+mongo 知识要点：python3，scrapy-redis框架，redis数据库，mongo数据库，http请求，正则表达式，xpath,https代理。爬取思路：从过百万粉丝的张佳伟/李开复等几个知乎大V开始爬取，递归爬取关注列表和粉丝列表。

2017-10-17 01:23:56 1792 1

原创执行效率

IF USED([Test]) USE IN TestENDIF CREATE CURSOR test(cName c(10),cCode c(10))PRIVATE m.Beginm.Begin=SECONDS()FOR m.j=1 TO 1000000 FOR m.i=1 TO FCOUNT("test") m.y=FIELD(i,[Test]) END

2010-04-30 16:27:00 476

机器学习-Mitchell-中文-清晰-超级详细目录版.pdf

Mitchell 机器学习的高清版教材，原书我下载时仅有主章的目录，我个人加上了完整的目录，这本教材的目标是展现机器学习中核心的算法和理论。

2018-03-28

Learning From Data plus 完整版带目录林轩田

Learning From Data plus，完整版带目录，除了机器学习基石该门课配套的教材Learning from Data之外，还补充了后续林轩田老师提供的e-chapter内容原版是从lbluesky01下载的，个人加上了完整的目录标签。 e-Chapter 6 Similarity-Based Methods e-Chapter 7 Neural Networks e-Chapter 8 Support Vector Machines e-Chapter 9 Learning Aides

2018-03-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

CaiNiaoWuZui的专栏

原创网络爬虫之必备知识

原创免费代理爬虫遭遇JavaScript

原创 python多线程编程之异步委托

原创把知乎丁香医生的文章及回答转pdf

原创 1800万知乎用户的爬取

原创执行效率

机器学习-Mitchell-中文-清晰-超级详细目录版.pdf

Learning From Data plus 完整版带目录林轩田

林轩田机器学习讲义PDF

用Python写网络爬虫高清完整PDF版+源码

wkhtmltopdf-0.12.2.4_mingw-w64

深度学习中文版

PRML读书会合集打印版

空空如也

原创 网络爬虫之必备知识

原创 免费代理爬虫遭遇JavaScript

原创 python多线程编程之异步委托

原创 把知乎丁香医生的文章及回答转pdf

原创 1800万知乎用户的爬取

原创 执行效率

机器学习-Mitchell-中文-清晰-超级详细目录版.pdf

Learning From Data plus 完整版带目录 林轩田

林轩田机器学习讲义PDF

用Python写网络爬虫 高清完整PDF版+源码

wkhtmltopdf-0.12.2.4_mingw-w64

深度学习中文版

PRML读书会合集打印版

空空如也

原创网络爬虫之必备知识

原创免费代理爬虫遭遇JavaScript

原创把知乎丁香医生的文章及回答转pdf

原创执行效率

Learning From Data plus 完整版带目录林轩田

用Python写网络爬虫高清完整PDF版+源码