爬虫
冻梨不是梨
公众号:壹家大数据
展开
-
python 爬取电影天堂电影
主要介绍爬取电影天堂首页的电影列表,并将结果保存为csv文件.1.首先导入需要的模块import requestsfrom bs4 import BeautifulSoupimport csv2.获取网页,并解析结果def html_parser(url_start): #获取html try: headers={'User-Agent':'...原创 2018-06-11 21:20:44 · 6079 阅读 · 2 评论 -
robots 协议介绍
robots.txt怎么写 1、允许所有搜索引擎访问 User-agent: * Disallow: 或者 User-agent: * Allow: / 在这里大家要注意下,可以最直接的建一个空文件 “robots.txt”然后放到网站的根目录。 2、禁止所有搜索引擎访问 User-agent: * Disallow: / 或者 User-agent...原创 2018-08-29 10:37:29 · 2403 阅读 · 0 评论 -
爬虫url-去重
在爬虫启动工作的过程中,我们不希望同一个网页被多次下载,因为重复下载不仅会浪费CPU机时,还会为搜索引擎系统增加负荷。而想要控制这种重复性下载问题,就要考虑下载所依据的超链接,只要能够控制待下载的URL不重复,基本可以解决同一个网页重复下载的问题。非常容易想到,在搜索引擎系统中建立一个全局的专门用来检测,是否某一个URL对应的网页文件曾经被下载过的URL存储库,这就是方案。接着要考虑的就是...转载 2018-09-04 14:15:20 · 667 阅读 · 0 评论 -
抓取微信公众平台
一 概述抓取搜狗微信公众号文章 因为微信公众号网页是动态的,不能使用requests进行抓取,因此采用了selenium来进行抓取,包括了一下模块:1.url队列存储模块db.py: 采用了是redis来进行存储。为了方便调度,将url和其对应解析模块组成的列表一起存入了redis的列表中;url队列采用了先进先出的方式2.数据存储模块mongo.py: 最终抓取的数据存储到了mong...原创 2018-08-25 22:04:58 · 482 阅读 · 0 评论 -
python 爬虫入门解析
在正式的介绍网络爬虫技术之前,首先按照我自己的学习经历,来说下网络爬虫是什么,需要哪些技术。(一)什么是网络爬虫爬虫,按照其字面意思来看,就是一只会爬的虫子。那什么是网络爬虫爬虫呢?没错,就是一支在网络上爬的虫子。只不过这是在网络上爬的虫子,比较特殊,在爬的时候,他还在拾取网络上的数据。(二)学习网络爬虫需要哪些技能呢?既然你已经知道什么是网络爬虫了,那么你肯定在想,我怎么样才能制...原创 2018-10-29 23:01:22 · 437 阅读 · 0 评论 -
python 爬虫系列-信息在哪里?
本文主要介绍网页中的信息在哪里,怎么定位信息 当打开一个网页的时候,通常会看到各种各样的信息,比如淘宝,会看到各种商品的信息,比如商品的名称,价格等。但是这些信息是包含在哪里,爬虫又该怎么获取呢?这个时候就要用到网页的源代码。接下来以猫眼电影为例,一起来看下怎么查看网页的源代码,并查看这些信息是怎么保存的。 打开猫眼电影,找到其榜单如下:...原创 2018-12-02 23:03:07 · 435 阅读 · 0 评论 -
python爬虫系列——requests库
前言: 前一篇文章中,我们学习了怎么查看保存在网页中的信息,但要怎么把这些信息从网上抓取下来呢?接下来我们就来解决这个问题。让我们一起走进requests。 一 requests 简介 Requests是用python语言基于urllib编写的,采用的是Apache2 Licensed开源协议的HTTP库,Requests它会比urllib...原创 2018-12-03 23:43:07 · 586 阅读 · 0 评论 -
从 javascript 标签中获取数据
之前的一篇博客,介绍了使用js2xml 模块来解决javascript标签中的数据问题,但实际操作后发现,使用js2xml解析js得到的标签书,太过于反人类了。标签树是得到了,但获取数据就难了很多,那样的标签毕竟不是适合阅读的。今天又查看了下上篇文章中js的包含的数据结构,不就是dict或者json嘛。顿时感觉发现了新大陆。 ...原创 2018-08-30 23:35:02 · 649 阅读 · 0 评论 -
python 《我不是药神》豆瓣影评爬取
python 版本3.6 爬取豆瓣上的《我不是药神》的评论,代码直接粘贴在下面了,注意把其中的headers,替换成自己的。具体的方法是打开豆瓣官网,然后 右键 审查元素,点击network,刷新,找到第一个链接就能点击, 然后右侧就能出现了,之后下来会看到requests headers,那里就是,如下图所示:之后将那里面的东西复制出来,粘贴到代码里的headers出就可以了。有写的...原创 2018-08-19 09:57:25 · 2267 阅读 · 4 评论 -
python selenium实现下拉 爬取淘宝商品信息
之前爬取过一次淘宝的商品,直接使用slenium就可以直接爬取信息,这次又想再次爬取一下信息,发现每次爬取的信息都不全,纠结啊!(一)首先,介绍下背景:这次爬取的选择是手机。打开淘宝,搜索手机,可以发现每页商品共有48个,一共100页。 (二)流程介绍首先确定使用的爬取方式(这里使用selenium),然后是页面分析,标签定位,最后确定信息的存储方式(这里为了方便直接打...原创 2018-08-13 22:35:08 · 1070 阅读 · 0 评论 -
python 爬取电影天堂电影续编
在上一篇的基础上,添加了获取每部电影的下载链接的功能。首先分析电影一部电影的页面的html。分析的网页的url:https://www.dy2018.com/i/99618.html其中包含下载链接的标签为tbody:因此,获取下载链接的函数可以这样来写:def dlink(link): #获取下载链接 dllink_list=[] ...原创 2018-06-13 12:49:58 · 1000 阅读 · 0 评论 -
python爬虫— 利用js2xml 获取 script 数据
处理script中数据的最新方法,请看这个主要介绍利用js2xml来获取<script>数据1. 待获取网页:url:https://s.taobao.com/search?q=%E6%89%8B%E6%9C%BA&imgfile=&commend=all&ssid=s5-e&search_type=item&sourceId=tb...原创 2018-06-15 08:24:48 · 8690 阅读 · 6 评论 -
python爬虫 — 爬取淘宝商品信息
(一)确定需要爬取的信息在爬取前首先确定需要获取的信息,打开taobao,在搜索框中输入,需要获取的商品的信息,比如ipad,点击搜索就可以看到许多的ipad,选择其中的一款商品,比如第一个可以看到,其包含了以下的信息:(1)price: 售价(2)deal-cnt: 付款人数(3)name: 产品名称(4)shop_name: 店铺名称(5)loca...原创 2018-06-24 00:55:05 · 5250 阅读 · 1 评论 -
python爬虫 —爬拉勾网python爬虫职位(一)
爬虫可以简单的分为三个部分,url分析,网页分析与信息获取,信息存储。(1)url分析在进行爬取前,首先分析拉钩网的url特点。打开拉钩网,在搜索栏界面输入 python爬虫 然后进行搜索,得到如下界面然后,右键—查看源代码,会发现在源代码页面找不到职位的信息,可以猜想,网站使用的是其他的方法来加载信息的,比如,Ajax。接下来,右键—审查元素——Network选择xhr ,然后选择 name 下...原创 2018-06-17 22:14:21 · 673 阅读 · 0 评论 -
python爬虫— 拉勾网职位信息爬取
在上一篇对拉勾网url分析的基础上,这一篇开始爬取拉勾网上面的职位信息。既然,现在是使用的爬虫,那么就获取拉钩网上的爬虫工程师的职位的信息。上一篇的链接:python爬虫 —爬拉勾网python爬虫职位(一)(一)动工前分析 1.需要获取的信息:(1)职位名称(2)薪资(3)要求工作时间(4)岗位所在地点2.程序功能分析根据上面的分析,可以简单地将程序分为三个部分:(1)获取url, (2)获取职...原创 2018-06-18 22:56:09 · 596 阅读 · 0 评论 -
python爬虫 — 爬取豆瓣最受关注图书榜
一个简单的爬取豆瓣最受关注图书榜的小爬虫,在爬取相关信息后,将结果保存在 mongo 中整个流程分为以下几步:(1)构造url(2)分析网页(3)编写程序,提取信息解析,将分别介绍以上几步一 构造url首先打开网页,可以看到下面的图片从图片中,可以看到其分为虚构类作品榜和非虚构类作品榜两个榜单,分别点击这两个榜单,可以看到其下面的变化非虚构类作品榜:虚构类作品榜:因此,根据这两个变化,可以构造相应...原创 2018-06-27 03:29:07 · 903 阅读 · 0 评论 -
python — 定时爬取猫眼电影排行榜
每次程序运行都是运行一次就结束了,那么能不能定时运行呢?接下来介绍python中的定时运行模块,schedule。首先是模块的安装,推荐使用 pip 安装:pip install schedule接下来,在python的自带的IDLE中输入help('schedule'),就可以看到schedule的介绍。下面是schedule自带的例子:import scheduleimport time ...原创 2018-06-28 16:07:01 · 653 阅读 · 0 评论 -
python爬虫常用浏览器请求头
user_agent = [ "Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50", "Mozilla/5.0 (Windows; U; Windows NT 6.1; en-us) Ap...原创 2018-08-12 11:33:10 · 1832 阅读 · 0 评论 -
爬虫基础
基本概念:1、通用爬虫:可理解为搜索引擎,例如百度、google等,针对的是互联网上所有的资源2、聚焦爬虫:可理解为爬取指定内容的爬虫3、URI:统一资源标识符,即标明网络资源的字符串4、URL:统一资源定位符,即网络资源的地址,包括协议、服务器名称或IP、文件资源的路径三部分组成5、DNS服务器:用于解析网址,返回服务器IP地址的服务器。 爬虫所依赖的应用层的协议:HT...原创 2018-08-13 08:46:39 · 207 阅读 · 0 评论 -
python爬虫实战-抓取同花顺股票信息
前言: 在之前介绍requests的基础上,现在开始进行实战。 目标网站:http://q.10jqka.com.cn//index/index/board/all/field/zdf/order/desc/page/一 涉及到的技术点: (1)requests: 用于网页请求...原创 2018-12-09 22:25:59 · 30771 阅读 · 37 评论