python 网络爬虫
文章平均质量分 52
基于python的网络爬虫
ouprince
这个作者很懒,什么都没留下…
展开
-
爬虫实战 -- (爬取证券期货市场失信记录平台)
这里我们要通过实际展示爬取证券期货市场失信记录平台上的搜索数据。页面:http://shixin.csrc.gov.cn/honestypub 如下:我们现在要通过爬虫给定一个 姓名,机构代码 ,爬取获得的结果。这里主要说明两点:1. 这是一个动态网页,因此我采用 selenium 方法。2.这里的验证码图片并不在源码内,因此前面的通过 css 选择器直接下载的方式是不行...原创 2018-07-27 14:12:57 · 4929 阅读 · 0 评论 -
爬虫(8)-- scrapy & 可视化爬虫
安装: pip install scrapy(1)启动项目安装好 scrapy 后,我们可以运行 startproject 命令生成该项目的默认结构。具体步骤为:打开终端进入想要存储 scrapy 项目的目录,然后运行 scrapy startproject <project name> 。比如使用 example 作为项目名scrapy startproject exam...转载 2018-05-21 16:45:36 · 4136 阅读 · 0 评论 -
爬虫(7)-- 验证码处理
验证码的全称为 全自动区分计算机和人类的公开图灵测试。可以看出,验证码用于测试用户是否为真实人类。一个典型的验证码由扭曲的文本组成,此时计算机难以解析,但人类仍然可以(希望如此)阅读。如下表单中的最后一项 recaptcha_response_field 就是验证码信息import cookielib,urllib2,pprintREGISTER_URL = "http://examp...转载 2018-05-18 18:14:38 · 630 阅读 · 0 评论 -
爬虫(6)-- 表单交互
表单 form : <form action="#" enctype="application/x-www-form-urlencoded" method="post">action 用于设置表单数据的提交地址;enctype 设置数据提交的编码;输入:<input class="xxx" id="xxx" name="xxx" type="xxx" value=""/&...转载 2018-05-18 15:51:48 · 536 阅读 · 0 评论 -
爬虫(5)-- 动态网页下载
动态网页即不再是加载后立即下载所有页面内容。这样就会造成许多网页在浏览器中展示的内容不会出现在 HTML 源码中。于是就无法用静态网页的下载方法下载了。对于这种动态网页的下载,一般有两种方法。(1)JavaScript 逆向工程比如一个搜索网页, firebug 显示 HTML 如下<div class="container"><header clas...转载 2018-05-18 12:32:08 · 2167 阅读 · 0 评论 -
爬虫(4)-- 并发下载
所谓的并发下载,也就是启动多线程和多进程下载。多线程爬虫实现部分示例如下,多线程默认内存共享def process_queue():while True:try:url = crawl_queue.pop()except IndexError:breakelse:...转载 2018-05-16 16:28:51 · 400 阅读 · 0 评论 -
爬虫(3)-- 下载缓存
内存缓存将下载的网页缓存到内存,以避免碰到相同的网页重新下载,同时提供时间限速功能。定义一个下载类class Downloader:def __init__(self,decay = 5,user_agent = 'wswp',proxies = None,num_retries = 1,cache = None):s...转载 2018-05-15 14:25:58 · 434 阅读 · 0 评论 -
爬虫(2)-- 网页解析 BeautifulSoup & lxml.html
BeautifulSoupBeautifulSoup 是一个非常流行的 python 模块,该模块可以解析网页,并提供定位内容的便捷接口。安装简便pip install beautifulsoup4第一步是将已下载的 HTML 内容解析为 soup 文档。由于大多数网页都不具备良好的 html 格式,因此 beautifulsoup 需要对其实际格式进行确定。from bs4 i...转载 2018-05-14 14:28:44 · 2157 阅读 · 0 评论 -
爬虫(1)-- 静态网页下载
下载网页import urllib2def download(url):print "Downloading:",urltry:html = urllib2.urlopen(url).read()except urllib2.URLError as e:print 'Download error:',e.reason...转载 2018-05-12 12:37:59 · 783 阅读 · 0 评论