爬虫
文章平均质量分 90
皓阳当空
这个作者很懒,什么都没留下…
展开
-
python写爬虫6-selenium的使用
python写爬虫6-selenium的使用 目前,前端技术比较火热。各种前端技术、框架层出不穷。大部分站点的数据都是异步动态加载,相比获取静态内容,要抓取动态内容稍微麻烦点常用的两种抓取动态网页数据的方法: 1.借助Firebug等浏览工具,分析请求数据,获得数据接口地址。然后直接动态改变接口参数,获取json格式的数据。 2.使用浏览器渲染引擎触发javascript事件,借助工具We原创 2017-02-16 15:34:45 · 1044 阅读 · 0 评论 -
python写爬虫2-数据抓取的三种方式
python写爬虫2-数据抓取的三种方式常用抽取网页数据的方式有三种:正则表达式、Beautiful Soup、lxml1.正则表达式正则表达式有个很大的缺点是难以构造、可读性差、不易适用未来网页的变化。写一段伪代码:import reurl = 'http://xxxx.com/sdffs'html = download(url)re.findall('正则表达式', html)2.Bea原创 2017-02-09 12:11:53 · 4630 阅读 · 1 评论 -
python写爬虫1-写一个简单爬虫
python写爬虫1-写一个简单爬虫本文用urllib2模块编写一个简单的爬虫1.背景调研 写爬虫之前,要先调研一下你要爬取的站点信息,比如网站类型、后端语言、服务器类型、网站所有者等等检查网站构建的技术类型—builtwith模块 安装方法如下: pip install builtwith 使用方法如下: 从上图中可知,该站点使用ruby写的后端,后端框架用原创 2017-02-08 17:57:32 · 1071 阅读 · 0 评论 -
Python网络爬虫出现乱码的原因
关于爬虫乱码有很多各式各样的问题,这里不仅是中文乱码,编码转换、还包括一些如日文、韩文 、俄文、藏文之类的乱码处理,因为解决方式是一致的,故在此统一说明。网络爬虫出现乱码的原因源网页编码和爬取下来后的编码格式不一致。如源网页为gbk编码的字节流,而我们抓取下后程序直接使用utf-8进行编码并输出到存储文件中,这必然会引起乱码 即当源网页编码和抓取下来后程序直接使原创 2016-10-16 17:07:56 · 12523 阅读 · 1 评论 -
Python爬虫实例2-多线程爬虫抓取糗事百科数据
Queue(队列对象)Queue是python中的标准库,可以直接import Queue引用;队列是线程间最常用的交换数据的形式python下多线程的思考对于资源,加锁是个重要的环节。因为python原生的list,dict等,都是not thread safe的。而Queue,是线程安全的,因此在满足使用条件下,建议使用队列初始化: class Queue.Queue(原创 2016-10-16 16:44:36 · 4021 阅读 · 0 评论 -
Python爬虫实例1-抓取百度贴吧
采集 网络爬虫吧 的所有贴吧信息http://tieba.baidu.com/f?ie=utf-8&kw=%E7%BD%91%E7%BB%9C%E7%88%AC%E8%99%AB&fr=search解决问题思路:确认需求数据在哪右键查看源代码Fidder模拟发送数据# -*- coding:utf-8 -*-import urllib2import ch原创 2016-10-16 15:51:57 · 945 阅读 · 0 评论 -
python写爬虫3-MongoDB数据缓存(采集58出租房信息)
python写爬虫3-MongoDB数据缓存(采集58出租房信息)有时,我们下载某个页面并抓取部分数据后,之后可能还会需要重新下载该页面,抓取其他数据。对于小网站而言,这不算什么大问题;但对于那些拥有百万网页的网站来说,重新爬取可能需要耗费大量时间。因此,我们可以对已爬取的网页进行缓存,让每个页面只下载一次。 本文代码只是实现了数据的存储与获取,与上述案例实情不符 开发环境: 1.硬原创 2017-02-10 12:10:29 · 3251 阅读 · 0 评论 -
python写爬虫4-多线程爬虫(采集58出租房信息)
python写爬虫4-多线程爬虫(采集58出租房信息) 本文代码是在【python写爬虫3-MongoDB数据缓存(采集58出租房信息)】http://blog.csdn.net/apple9005/article/details/54967916博文的基础上编写运行【python写爬虫3-MongoDB数据缓存(采集58出租房信息)】中的代码爬取信息,你会发现,爬取一个列表页的详细原创 2017-02-11 21:34:57 · 4589 阅读 · 1 评论 -
python写爬虫5-多进程爬虫(采集58出租房信息)
python写爬虫5-多进程爬虫(采集58出租房信息) 本文代码是在【python写爬虫4-多线程爬虫(采集58出租房信息)】http://blog.csdn.net/apple9005/article/details/54971151博文的基础上编写多进程爬虫#! /usr/bin/env python# -*- coding:utf-8 -*-import urllib2import原创 2017-02-15 16:10:42 · 2053 阅读 · 0 评论