python-网络爬虫
文章平均质量分 50
飞过秋天
一曲肝肠断,天涯何处觅知音。
展开
-
百度图片爬取(传统翻页版本)
百度图片爬取(传统翻页版本)一、需求分析(1)百度图片:搜索‘天’ 可以看到在最后面是页数: (2)目的:爬取关键字搜索的所有图片,并实现翻页,最后将图片保存到本地。二、网页图片链接提取及翻页1.图片地址提取(1)在百度图片的搜索结果页面右键,然后单击“查看源文件”(本人用的是搜狗浏览器),可以看到相关的网页代码。(2)随便选一张图片,右键选择“复制图片网址”。然后转到上一步的html代原创 2017-05-30 18:00:14 · 4369 阅读 · 0 评论 -
简书短篇小说专栏爬取
简书短篇小说专栏爬取- 通过scrapy框架实现- 浏览器伪装实现- 文件以html格式保存到本地文件夹1.准备工作(1)通过cmd创建项目:scrapy startproject jianshu (2)创建爬虫文件:cd jianshu scrapy genspider novel jianshu.com2.开始编写(1)用p原创 2017-05-30 15:39:04 · 870 阅读 · 0 评论 -
糗事百科段子爬取
糗事百科段子爬取爬取多页的段子一、网站分析(1)打开网站糗事百科,可以发现很多段子:(2)经过翻页,可以发现网址的规律:for k in range(0,10): url = "http://www.qiushibaike.com/8hr/page/" url = url + str(k) + "/?s=4985076"(3)打开“查看源文件”,可以发现段子所在位置,可写出其正则原创 2017-05-31 14:06:48 · 499 阅读 · 0 评论 -
使用fiddler抓取HTTPS协议数据与疑难杂症终极解决方案
作者:韦玮转载请注明出处常规设置:Fiddler默认只能抓取HTTP协议的网页,不能抓取HTTPS协议的网页,而我们很多时候,都需要抓HTTPS协议的网页,比如抓淘宝数据等。今天,韦玮老师会为大家讲解如何使用Fiddler抓取HTTPS协议的网页。打开Fiddler,点击“Tools–Fiddler Options–HTTPS”,把下方的全勾上,如下图所示:然后,点击Action,选择将CA证转载 2017-05-31 14:17:58 · 1503 阅读 · 0 评论 -
用户代理与IP代理爬取糗事百科
用户代理与IP代理爬取糗事百科客本文通过用户代理池和IP代理池的联和使用来爬取网页一、情况分析绝大多数的网站都具备反爬功能。而我们要爬取数据必须绕过这关。如果短时期内频繁的爬取网站数据,极易被发现。人对网站的正常访问速度是有限的,因此爬虫就变得更容易暴露。上网的用户会被分配给一个唯一的IP地址。因此通过对这个IP的监控,也极容易发现是爬虫在爬取网页。二、解决思路既然网站拒绝爬虫的标识,原创 2017-05-31 20:33:40 · 379 阅读 · 0 评论 -
scrapy框架半自动处理验证码豆瓣网模拟登陆
scrapy框架半自动处理验证码豆瓣网模拟登陆一、本文要解决的问题通过爬虫来模拟登陆豆瓣网解决多次登陆时出现的图片验证码问题登陆之后,保持登陆状态,对深层次的页面进行爬取。二、实现思路通过Fiddler进行抓包分析之后,发现了登陆的规律:即向固定的网址POST相关数据,其中可以发现包括用户名和密码。因此,我们可以手动构造要发送的数据:data = { "c原创 2017-06-01 15:52:53 · 1003 阅读 · 2 评论 -
简书用户名爬取
简书用户名爬取和写入数据库利用urllib库进行网页爬取利用xpath表达式提取用户名信息使用用户代理池伪装技术将爬取数据自动写入mysql数据库直接看代码:# -*- coding: utf-8 -*-"""Created on Wed Jun 14 12:06:50 2017@author: Creator"""import urllib.requestfrom lxml im原创 2017-06-14 15:52:48 · 667 阅读 · 0 评论 -
网络爬虫初识:网络爬虫概述
网络爬虫初识:网络爬虫概述一、网络爬虫是什么简单来说,网络爬虫就是自动从互联网中定向或不定向地采集信息的一种程序。网络爬虫有许多类型,常见的有:通用网络爬虫、聚焦网络爬虫等。二、网络爬虫能干什么网络爬虫能做很多事情,比如通用网络爬虫可以应用在搜索引擎中,聚焦网络爬虫等可以从互联网自动采集信息并代替我们筛选出相关的数据出来。具体来说,网络爬虫可以应用在以下方面:搜索引擎 采集金融数据 采集商品数原创 2017-07-24 12:41:54 · 2985 阅读 · 0 评论 -
网络爬虫工作原理详解
网络爬虫工作原理详解一、通用网络爬虫运行原理二、聚焦网络爬虫运行原理原创 2017-07-24 12:48:24 · 1844 阅读 · 0 评论