- 博客(4)
- 资源 (2)
- 收藏
- 关注
原创 Node.js 爬虫批量下载美剧 from 人人影视 HR-HDTV
这两天发现了一个叫看知乎的网站,是知乎的苏莉安做的,其中爬虫使用的 Node.js。这里就针对上一篇博客中的美剧小爬虫,改用 nodejs 进行实现一下,体验一下强大的 Node.js。如果之前没有用过 JavaScript,不妨到 http://www.codecademy.com/ 做一下 JavaScript 和 jQuery 的入门练习,快速熟悉一下基本语法,有其他语言基础的话一天时间足够。对其有基本的了解后,就会发现 JavaScript 的两大特点:使用基于原型(prototype)的方式来
2014-10-23 21:46:46 5422
原创 Python 爬虫批量下载美剧 from 人人影视 HR-HDTV
本人比较喜欢看美剧,尤其喜欢人人影视上HR-HDTV 的 1024 分辨率的高清双字美剧,这里写了一个脚本来批量获得指定美剧的所有 HR-HDTV 的 ed2k下载链接,并按照先后顺序写入到文本文件。这个 python 爬虫比较短,就用到了 urllib.request 和 re 这两个模块,前者负责抓取网页,后者负责解析文本。想进一步加强爬虫的功能,可以用爬虫框架 Scrapy。还有就是,网页内容多是 javascript 生成,就需要一个 js 引擎了,PyV8 可以拿来试试,再有就是基于 js 的爬虫
2014-10-11 20:10:05 10915
原创 STL 笔记(五) 算法 algorithm
在 STL 中,算法是一系列的函数模版。STL 提供了大概 70 个算法,由头文件 <algorithm>、<numeric>、<functional>组成。头文件 <algorithm> 是最大的一个,里面常用到的功能有:查找、排序、修改、移除、交换、合并等;头文件 <numeric> 较小,主要包括数序运算的函数模版;头文件 <functional> 中则定义了一些类模版,来声明函数对象;算法的分类:算法按其实现的功能可分为 8 类:查找、排序、数值计算、比较、集合、容器管理、统计和对操
2014-10-09 23:18:26 2975
原创 STL 笔记(四) 迭代器 iterator
stl 中迭代器可以理解为面向对象版本的广义指针,提供了对容器中的对象的访问方法,可以遍历容器所有元素,也可以访问任意元素。stl 迭代器有以下五种:Input iterators 只读,输入迭代器,支持如:istreamOutput iterators 只写,输出迭代器,支持如:ostream、inserterForward iterators 读写,前向迭代器,只能前向移动Bidirectional iterators 读写,双向迭代器,能够双向移动,支持如: list、set、mapR
2014-10-08 23:47:51 2282
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人