自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 资源 (8)
  • 收藏
  • 关注

原创 网络爬虫之必备知识

摘要:本文主要理清网络爬虫的概念,简要讲解爬虫的必备知识,分为python基础、字符编码、http头信息、http状态码、html基础、爬虫职业道德。内容浅显,主要理一理相关知识。一、网络爬虫的概念   网络爬虫,又被称为网页蜘蛛,网络机器人,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。 通俗的说,我们写爬虫的目的就是自动从不同的网页上提取海量的数据。以下是我之前爬取的部分数据

2017-11-27 09:35:41 5618

原创 免费代理爬虫遭遇JavaScript

  爬虫过程经常会遇到JavaScript反爬虫,如果JavaScript代码可读性强,那么写出相应的python代码,效率是最高的。如果JavaScript代码可读性非常差,也可以考虑使用基于selenium的phantomjs。本文采用的是第一种。

2017-10-28 04:58:03 1622

原创 python多线程编程之异步委托

多线程编程一向是难点,也容易出问题。之前c#中异步委托用的很爽,python中如何实现类似效果呢?   上面的流程图中,在接收数据之后,启动一个清洗数据的线程,然后不必等待清洗结果继续接收数据。同样,在清洗数据时,启动一个保存数据的线程,然后不必等待保存结果继续清洗数据。   由于python中父线程结束时,子线程也会跟着结束。因此我这里把接收数据,清洗数据,保存数据分别放入三个不同的线程池

2017-10-28 04:55:57 704

原创 把知乎丁香医生的文章及回答转pdf

之前爬取了1800多万的知乎用户,因而想生成pdf方便保存和阅读,正好试试wkhtmltopdf+pdfkit是否好用。1:pdfkit是wkhtmltopdf的python封装,因此需要先下载安装wkhtmltopdf,版本wkhtmltopdf-0.12.2.4_mingw-w64,下载地址为[这里写链接内容](http://download.csdn.net/download/cainiao

2017-10-18 01:48:09 3298

原创 1800万知乎用户的爬取

1800万知乎用户的爬取近日爬取了知乎1800万个用户,记录其主要过程爬取工具:python3+scrapy+redis+mongo 知识要点:python3,scrapy-redis框架,redis数据库,mongo数据库,http请求,正则表达式,xpath,https代理。 爬取思路:从过百万粉丝的张佳伟/李开复等几个知乎大V开始爬取,递归爬取关注列表和粉丝列表。

2017-10-17 01:23:56 1792 1

原创 执行效率

IF USED([Test])    USE IN TestENDIF CREATE CURSOR test(cName c(10),cCode c(10))PRIVATE m.Beginm.Begin=SECONDS()FOR m.j=1 TO 1000000    FOR m.i=1 TO FCOUNT("test")        m.y=FIELD(i,[Test])    END

2010-04-30 16:27:00 476

机器学习-Mitchell-中文-清晰-超级详细目录版.pdf

Mitchell 机器学习 的高清版教材,原书我下载时仅有主章的目录,我个人加上了完整的目录,这本教材的目标是展现机器学习中核心的算法和理论。

2018-03-28

Learning From Data plus 完整版带目录 林轩田

Learning From Data plus,完整版带目录,除了机器学习基石该门课配套的教材Learning from Data之外,还补充了后续林轩田老师提供的e-chapter内容 原版是从lbluesky01下载的,个人加上了完整的目录标签。 e-Chapter 6 Similarity-Based Methods e-Chapter 7 Neural Networks e-Chapter 8 Support Vector Machines e-Chapter 9 Learning Aides

2018-03-15

林轩田机器学习讲义PDF

林轩田机器学习讲义,林轩田教授的视频课程,李宏毅教授的视频课程,斯坦福cs231n课程,大牛吴恩达的机器学习/深度学习课程,是我认为最好的课程

2017-10-22

用Python写网络爬虫 高清完整PDF版+源码

《用Python写网络爬虫》作为使用Python来爬取网络数据的杰出指南,讲解了从静态页面爬取数据的方法以及使用缓存来管理服务器负载的方法。此外,本书还介绍了如何使用AJAX URL和Firebug扩展来爬取数据,以及有关爬取技术的更多真相,比如使用浏览器渲染、管理cookie、通过提交表单从受验证码保护的复杂网站中抽取数据等。本书使用Scrapy创建了一个高级网络爬虫,并对一些真实的网站进行了爬取。

2017-10-21

wkhtmltopdf-0.12.2.4_mingw-w64

wkhtmltox-0.12.2.4_mingw-w64-cross-win64 html转pdf组件

2017-10-16

深度学习中文版

深度学习领域三位前沿、权威的专家Ian Goodfellow、Yoshua Bengio和Aaron Courville合著的人工智能领域的圣经、长期位居美国亚马逊人工智能类图书榜首的《深度学习》

2017-10-15

PRML读书会合集打印版

超级经典的机器学习Pattern Recognition and Machine Learning,读书会合集打印版

2017-08-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除