爬虫
小可爱的饲养员
这个作者很懒,什么都没留下…
展开
-
爬虫刷题-glidedsky
最近群里传的很火的一个爬虫练习网站.(网站做的非常走心, 支持一下.)url : http://glidedsky.com/做了几个题感觉非常有意思, 和大家交流分享一波.第一题:这里有一个网站,里面有一些数字。把这些数字的总和,输入到答案框里面,即可通过本关.这个咱就不说了, 把数据全都取出相加就可以通关了.第二题:在第一题的基础上加了翻页.在code中加个链接迭代就行了....原创 2019-11-13 13:24:07 · 3095 阅读 · 2 评论 -
Pycharm创建项目自动生成头部信息
打开PyCharm 左上角选择File-Settings如下所示在右侧编辑栏中输入:#!/usr/bin/python# -*- coding: UTF-8 -*-# time: ${DATE} ${TIME}可以设置的模板#!/usr/bin/python3可用的预定义文件模板变量为:$ {PROJECT_NAME} - 当前项目的名称。$ {NAME} - 在文件创建过...原创 2019-11-05 14:01:01 · 288 阅读 · 0 评论 -
裁判文书网python爬虫分析2019-2-19
最近发现文书网又双叒更新了反爬策略.微微蛋疼抓包研究了一下发现post请求的时候多了个参数.原创 2019-02-19 16:41:48 · 2865 阅读 · 3 评论 -
scrapy常用命令
原创 2019-01-20 12:49:35 · 199 阅读 · 0 评论 -
scrapy的settings中的常用设置.
scrapy.settings中的的一些设置.# scrapy默认深度优先, 如果想换成广度优先..添加下面代码.DEPTH_PRIORITY = 1SCHEDULER_DISK_QUEUE = 'scrapy.squeues.PickleFifoDiskQueue'SCHEDULER_MEMORY_QUEUE = 'scrapy.squeues.FifoMemoryQueueSCHED...原创 2019-01-20 12:37:36 · 847 阅读 · 0 评论 -
如何用requests使用代理
@staticmethoddef Abuyun_proxy(): proxyHost = "http-dyn.abuyun.com" proxyPort = "9020" proxyUser = "阿布云账号" proxyPass = "keys" proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)...原创 2019-01-20 12:23:57 · 1707 阅读 · 0 评论 -
selenium模拟鼠标操作
方法列表perform(self): ---执行链中的所有动作reset_actions(self): ---清除存储在远端的动作click(self, on_element=None): ---鼠标左键单击click_and_hold(self, on_element=None): --鼠标左键单击,不松开context_click(self, on_e...原创 2018-11-07 18:29:34 · 1278 阅读 · 0 评论 -
Liunx系统安装/卸载Mysql及设置密码
Liunx系统安装/卸载Mysql及设置密码你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下Markdown的基本语法知识。新的改变删除mysql1.sudo apt-get autoremove --purge mysql-server-5.52.sudo apt-get remove mys...原创 2018-11-07 18:18:59 · 160 阅读 · 0 评论 -
docker基础
1. 什么是docker?Docker 是一个开源的应用容器引擎,基于 Go 语言 并遵从Apache2.0协议开源。 Docker可以让开发者打包他们的应用以及依赖包到一个轻量级、可移植的容器中,然后发布到任何流行的 Linux 机器上,也可以实现虚拟化。容器是完全使用沙箱机制,相互之间不会有任何接口(只能通过与宿主机即运行docker的机器进行通讯),更重要的是容器性能开销极低你可...原创 2018-08-24 16:22:24 · 161 阅读 · 0 评论 -
浅谈scrapy
1.为什么使用scrapy框架来写爬虫 ? 在python爬虫中:requests + selenium 可以解决目前90%的爬虫需求,难道scrapy 是解决剩下的10%的吗?然而并不是这样。scrapy框架是为了让我们的爬虫更强大、更高效, 让我们写的爬虫更具有健壮性。接下来我们一起认识一下它吧。2.什么是scrapy? Scrapy 使用了Twisted[‘tw...原创 2018-08-12 12:21:43 · 681 阅读 · 0 评论 -
入坑爬虫(八)数据提取之xpath
lxml是一款高性能的 Python HTML/XML 解析器,我们可以利用XPath,来快速的定位特定元素以及获取节点信息认识xml知识点: html和xml的区别xml中各个元素的的关系和属性xml的树结构<bookstore><book category="COOKING"> <title lang="en原创 2018-08-07 11:00:11 · 15931 阅读 · 2 评论 -
入坑爬虫(三)Requests库的基本使用
Requests库的基本使用为什么要学习requests模块,而不是urllib - requests的底层实现就是urllib - requests在python2 和 python3 中通用, 方法完全一样 - requests简单易用 - requests能够自动帮助我们解压(gzip压缩的等)响应内容requests模块发送简单的ge...原创 2018-08-02 18:29:52 · 528 阅读 · 0 评论 -
入坑爬虫(二)编写第一个python小爬虫
准备工作编程语言: python3(本人用的是3.6版本)IDE(集成开发环境): 萌新推荐使用pycharm或python自带的IDLE.操作系统: Windows(考虑到多数小伙伴都是windows系统,后面的爬虫也都是在windows环境下操作)python的第三方库: requests 以管理员身份运行cmd在终端中输入: pip install request...原创 2018-08-02 17:24:10 · 1649 阅读 · 0 评论 -
入坑爬虫(一)爬虫的基本概念
什么是爬虫网络爬虫(又被称为网页蜘蛛,网络机器人)就是模拟浏览器发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序.原则上来说,只要是浏览器(客户端)能做的事情,爬虫都能够做.爬虫的分类和流程根据被爬网站的数量的不同,我们把爬虫分为:通用爬虫 :通常指搜索引擎的爬虫(百度, 谷歌, 360等)聚焦爬虫 :针对某种需求针对特定网站的爬虫...原创 2018-08-02 16:24:16 · 1014 阅读 · 0 评论 -
入坑爬虫(六)某招聘网站信息采集
前面的章节中,我们说到了如何发送发送,对应的,回顾之前的爬虫流程,在发送完请求之后,能够获取响应,这个时候就需要从响应中提取数据了.1. 爬虫中数据的分类在爬虫爬取到的数据中有很多不同类型的数据,我们需要了解数据的不同类型来规律的提取和解析数据.根据响应的内容,我们可以将获得到的数据分为以下两类: - 结构化数据:json,xml等 处理方式:直接转化为pyth...原创 2018-08-05 12:02:15 · 3831 阅读 · 1 评论 -
入坑爬虫(七)selenium爬取某网站招聘信息
1 什么是seleniumSelenium是一个Web的自动化测试工具,最初是为网站自动化测试而开发的,Selenium 可以直接运行在浏览器上,它支持所有主流的浏览器(包括PhantomJS这些无界面的浏览器),可以接收指令,让浏览器自动加载页面,获取需要的数据,甚至页面截屏.2 PhantomJS的介绍PhantomJS 是一个基于Webkit的“无界面”(headless)浏...原创 2018-08-09 14:08:43 · 1587 阅读 · 0 评论 -
入坑爬虫(五)Requests库处理cookie
requess模块处理cookie相关的请求爬虫中使用cookie为了能够通过爬虫获取到登录后的页面,或者是解决通过cookie的反扒,需要使用request来处理cookie相关的请求爬虫中使用cookie的利弊能够访问登录后的页面 能够实现部分反反爬带上cookie的坏处: 一套cookie往往对应的是一个用户的信息,请求太频繁有更大的可能性被对方识别为...原创 2018-08-04 13:15:59 · 10166 阅读 · 2 评论 -
入坑爬虫(四)Requests库的深入使用
上个小节我们学会使用了requests的get方法.下面我们开始学习如何使用requests库发送POST请求.哪些地方我们会用到POST请求?登录注册( POST 比 GET 更安全)需要传输大文本内容的时候( POST 请求对数据长度没有要求)1. requests发送post请求语法:用法: response = requests.post("http:...原创 2018-08-03 17:47:00 · 568 阅读 · 0 评论