- 博客(15)
- 资源 (22)
- 问答 (1)
- 收藏
- 关注
原创 【Python爬虫9】Python网络爬虫实例实战
爬Google搜索引擎爬Facebook和Linkein1自动化登录Facebook2提取Facebook的API数据3自动化登录Linkedin爬在线商店Gap爬宝马官网爬取Google真实的搜索表单爬取依赖JavaScript的网站Facebook爬取典型在线商店Gap爬取拥有地图接口的宝马官网1.爬Google搜索引擎# -*- coding: utf-8 -*-impor
2017-02-17 13:17:35 12174 3
原创 【Python爬虫8】Scrapy 爬虫框架
安装Scrapy新建项目1定义模型2创建爬虫3优化设置4测试爬虫5使用shell命令提取数据6提取数据保存到文件中7中断和恢复爬虫使用Portia编写可视化爬虫1安装2标注3优化爬虫4检查结果使用Scrapely实现自动化提取1.安装Scrapy用pip命令安装Scrapy:pip install Scrapywu_being@ubuntukylin64:~/GitHu
2017-02-17 13:16:19 9687
原创 【Python爬虫7】验证码处理
获得验证码图片光学字符识别验证码用API处理复杂验证码1 9kw打码平台11 提交验证码12 请求已提交验证码结果12与注册功能集成验证码(CAPTCHA)全称为全自动区分计算机和人类的公开图灵测试(Completely Automated Public Turing test to tell Computersand Humans Apart)。从其全称可以看出,验证码用于测试用户是
2017-02-17 13:15:06 19648
原创 【Python爬虫6】表单交互
手工处理发送POST请求提交登录表单1分析表单内容2手工测试post请求提交表单3手工处理post请求登录的完整源代码从FF浏览器加载cookie登录网站1session文件位置2FF浏览器cookie内容3使用cookie测试加载登录4使用cookie登录源代码使用高级模块Mechanize自动化处理表单提交1用高级模块Mechanize自动化处理表单提交并支持登录后网页内容更
2017-02-17 13:13:36 7758
原创 【Python爬虫5】提取JS动态网页数据
动态网页示例对加载内容进行逆向工程1通过开发者工具的逆向工程2通过墨盒测试的逆向工程21搜索条件为空时22用号匹配时22用号匹配时渲染动态网页1使用WebKit渲染引擎2使用Selenium自定义渲染现在大部分的主流网站都用JavaScript动态显示网页内容,这样使得我们之前提取技术无法正常运行。本篇将介绍两种提取基于JS动态网页的数据。JavaScript逆向工程渲染Ja
2017-02-17 13:12:20 36972
原创 【Python爬虫4】并发并行下载
1一百万个网站1用普通方法解析Alexa列表2复用爬虫代码解析Alexa列表2串行爬虫3并发并行爬虫0并发并行工作原理1多线程爬虫2多进程爬虫4性能对比这篇将介绍使用多线程和多进程这两种方式并发并行下载网页,并将它们与串行下载的性能进行比较。1一百万个网站亚马逊子公司Alexa提供了最受欢迎的100万个网站列表(http://www.alexa.com/topsites ),我们也可
2017-02-17 13:08:36 6987
原创 【Python爬虫3】在下载的本地缓存做爬虫
1为链接爬虫添加缓存支持2磁盘缓存1用磁盘缓存的实现2缓存测试3节省磁盘空间4清理过期数据5用磁盘缓存的缺点3数据库缓存1NoSQL是什么2安装MongoDB3MongoDB概述4MongoDB缓存实现5压缩存储6缓存测试7MongoDB缓存完整代码上篇文章,我们学习了如何提取网页中的数据,以及将提取结果存到表格中。如果我们还想提取另一字段,则需要重新再下载整个网页,这
2017-02-17 13:06:12 3292
原创 【Python爬虫2】网页数据提取
提取数据方法1 正则表达式2 流行的BeautifulSoup模块3 强大的Lxml模块性能对比为链接爬虫添加抓取回调1 回调函数一2 回调函数二3 复用上章的链接爬虫代码 我们让这个爬虫比每个网页中抽取一些数据,然后实现某些事情,这种做法也被称为提取(scraping)。
2017-02-17 13:04:11 9110
原创 【Python爬虫1】网络爬虫简介
调研目标网站背景1 检查robotstxt2 检查网站地图3 估算网站大小4 识别网站所有技术5 寻找网站所有者第一个网络爬虫1 下载网页重试下载设置用户代理user_agent2 爬取网站地图3 遍历每个网页的数据库ID4 跟踪网页链接高级功能解析robotstxt支持代理Proxy下载限速避免爬虫陷阱最终版本
2017-02-17 12:43:40 7050 4
原创 【数据结构8】排序
0各种排序的比较1内部排序1-1 插入型排序1-1-1 直接插入排序1-1-2 折半插入排序1-1-3 希尔shell排序1-2 交换型排序1-2-1 简单冒泡排序1-2-2 高级冒泡排序1-2-3 快速排序1-3 选择型排序1-3-1 简单选择排序1-3-2 堆排序1-4 归并排序1-5 基数排序2外部排序2-1 多路归并排序
2017-02-17 11:35:23 968
原创 【数据结构7】查找
1线性结构的查找1-1 顺序查找1-2 折半查找1-3 分块查找2树形结构的查找2-1 二叉查找树2-2 二叉平衡树2-3 B-tree和Btree3散列结构的查找3-1 哈希hash散列表4字符串模式匹配4-1 简单的模式匹配算法4-2 KMP 算法1、线性结构
2017-02-17 11:34:58 807
原创 【数据结构6】图
图存储结构的定义1 图的邻接矩阵定义法2 图的邻接表定义法3 有向图的十字链表定义法4 无向图的邻接多重表定义法图的遍历1 深度优先搜索2广度优先搜索图的基本应用1 最小生成树11 Prim算法12 Kruskal算法2 最短路径21 Dijkstra算法22 Floyd-Warshall算法3 拓扑排序4 关键路径图的实例1 图存储结构的定义1.1 图的邻接矩阵定
2017-02-17 11:34:27 985
原创 【数据结构4】队列
1队列的基本概念2队列的存储结构与基本运算2-1 顺序队列的存储结构与基本运算2-1-1 顺序队列的存储结构2-1-2 循环顺序队列的基本运算2-2 链式队列的存储结构与基本运算2-2-1 链式队列的存储结构2-2-2 双端链式队列的例子3队列的应用3-1 队列在树的层次遍历中应用3-1 队列在图的广度优先搜索中应用3-3 队列在计算机系统中的应用
2017-02-17 11:33:03 800
原创 【数据结构3】栈
1栈的基本概念2栈的存储结构与基本运算2-1 顺序栈存储结构与基本运算2-1-1 顺序栈的存储结构2-1-2 顺序栈的基本运算2-2 链式栈存储结构与基本运算2-2-1 链式栈的存储结构2-2-2 链式栈的基本运算3栈的应用1、栈的基本概念栈(Stack):限定在栈顶(表尾)进行插入(入栈)和删除(出栈)的线性表。基操作的特性是先进后出,又称为后进先出(Last In First O
2017-02-17 11:32:11 635
类似“极乐净土”代码字符做视频动画的c语言源码 BadApple.rar
2020-10-17
linux-kernel-3.18.48
2017-10-30
apache-maven-3.3.9-bin.tar.gz
2016-06-30
alibaba-rocketmq-3.2.6
2016-06-30
tair-2.3.tar.gz
2016-06-30
4四阶龙格库塔公式推导(惠州学院13网络工程吴成兵)
2015-12-25
思科网络技术学院教程(路由协议和概念)
2014-08-24
网络安全基础:应用与标准(第4版) 斯托林斯(William Stallings) (作者), 白国强 (译者), 等 (译者)
2014-08-24
具体数学英文第二版
2014-08-17
ImportError: No module named pxssh
2017-02-09
TA创建的收藏夹 TA关注的收藏夹
TA关注的人