python
小可爱的饲养员
这个作者很懒,什么都没留下…
展开
-
爬虫刷题-glidedsky
最近群里传的很火的一个爬虫练习网站.(网站做的非常走心, 支持一下.)url : http://glidedsky.com/做了几个题感觉非常有意思, 和大家交流分享一波.第一题:这里有一个网站,里面有一些数字。把这些数字的总和,输入到答案框里面,即可通过本关.这个咱就不说了, 把数据全都取出相加就可以通关了.第二题:在第一题的基础上加了翻页.在code中加个链接迭代就行了....原创 2019-11-13 13:24:07 · 3139 阅读 · 2 评论 -
Pycharm创建项目自动生成头部信息
打开PyCharm 左上角选择File-Settings如下所示在右侧编辑栏中输入:#!/usr/bin/python# -*- coding: UTF-8 -*-# time: ${DATE} ${TIME}可以设置的模板#!/usr/bin/python3可用的预定义文件模板变量为:$ {PROJECT_NAME} - 当前项目的名称。$ {NAME} - 在文件创建过...原创 2019-11-05 14:01:01 · 303 阅读 · 0 评论 -
selenium模拟鼠标操作
方法列表perform(self): ---执行链中的所有动作reset_actions(self): ---清除存储在远端的动作click(self, on_element=None): ---鼠标左键单击click_and_hold(self, on_element=None): --鼠标左键单击,不松开context_click(self, on_e...原创 2018-11-07 18:29:34 · 1296 阅读 · 0 评论 -
Python实现PDF转文字.
安装依赖:pip install pdfminer3k# -*- coding:utf-8import sysimport importlibimportlib.reload(sys)from pdfminer.pdfparser import PDFParser,PDFDocumentfrom pdfminer.pdfinterp import PDFResourceManag...原创 2018-11-12 16:10:49 · 3753 阅读 · 0 评论 -
如何用requests使用代理
@staticmethoddef Abuyun_proxy(): proxyHost = "http-dyn.abuyun.com" proxyPort = "9020" proxyUser = "阿布云账号" proxyPass = "keys" proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)...原创 2019-01-20 12:23:57 · 1721 阅读 · 0 评论 -
scrapy的settings中的常用设置.
scrapy.settings中的的一些设置.# scrapy默认深度优先, 如果想换成广度优先..添加下面代码.DEPTH_PRIORITY = 1SCHEDULER_DISK_QUEUE = 'scrapy.squeues.PickleFifoDiskQueue'SCHEDULER_MEMORY_QUEUE = 'scrapy.squeues.FifoMemoryQueueSCHED...原创 2019-01-20 12:37:36 · 860 阅读 · 0 评论 -
scrapy常用命令
原创 2019-01-20 12:49:35 · 211 阅读 · 0 评论 -
裁判文书网python爬虫分析2019-2-19
最近发现文书网又双叒更新了反爬策略.微微蛋疼抓包研究了一下发现post请求的时候多了个参数.原创 2019-02-19 16:41:48 · 2879 阅读 · 3 评论 -
Liunx系统安装/卸载Mysql及设置密码
Liunx系统安装/卸载Mysql及设置密码你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下Markdown的基本语法知识。新的改变删除mysql1.sudo apt-get autoremove --purge mysql-server-5.52.sudo apt-get remove mys...原创 2018-11-07 18:18:59 · 170 阅读 · 0 评论 -
docker基础
1. 什么是docker?Docker 是一个开源的应用容器引擎,基于 Go 语言 并遵从Apache2.0协议开源。 Docker可以让开发者打包他们的应用以及依赖包到一个轻量级、可移植的容器中,然后发布到任何流行的 Linux 机器上,也可以实现虚拟化。容器是完全使用沙箱机制,相互之间不会有任何接口(只能通过与宿主机即运行docker的机器进行通讯),更重要的是容器性能开销极低你可...原创 2018-08-24 16:22:24 · 183 阅读 · 0 评论 -
Python闭包与装饰器
1.闭包函数引用def test1(): print("--- in test1 func----")# 调用函数test1()# 引用函数ret = test1print(id(ret))print(id(test1))#通过引用调用函数ret()运行结果:--- in test1 func----1402125711490401402125...原创 2018-08-24 15:14:12 · 226 阅读 · 0 评论 -
入坑爬虫(五)Requests库处理cookie
requess模块处理cookie相关的请求爬虫中使用cookie为了能够通过爬虫获取到登录后的页面,或者是解决通过cookie的反扒,需要使用request来处理cookie相关的请求爬虫中使用cookie的利弊能够访问登录后的页面 能够实现部分反反爬带上cookie的坏处: 一套cookie往往对应的是一个用户的信息,请求太频繁有更大的可能性被对方识别为...原创 2018-08-04 13:15:59 · 10331 阅读 · 2 评论 -
入坑爬虫(七)selenium爬取某网站招聘信息
1 什么是seleniumSelenium是一个Web的自动化测试工具,最初是为网站自动化测试而开发的,Selenium 可以直接运行在浏览器上,它支持所有主流的浏览器(包括PhantomJS这些无界面的浏览器),可以接收指令,让浏览器自动加载页面,获取需要的数据,甚至页面截屏.2 PhantomJS的介绍PhantomJS 是一个基于Webkit的“无界面”(headless)浏...原创 2018-08-09 14:08:43 · 1603 阅读 · 0 评论 -
入坑爬虫(六)某招聘网站信息采集
前面的章节中,我们说到了如何发送发送,对应的,回顾之前的爬虫流程,在发送完请求之后,能够获取响应,这个时候就需要从响应中提取数据了.1. 爬虫中数据的分类在爬虫爬取到的数据中有很多不同类型的数据,我们需要了解数据的不同类型来规律的提取和解析数据.根据响应的内容,我们可以将获得到的数据分为以下两类: - 结构化数据:json,xml等 处理方式:直接转化为pyth...原创 2018-08-05 12:02:15 · 3849 阅读 · 1 评论 -
入坑爬虫(二)编写第一个python小爬虫
准备工作编程语言: python3(本人用的是3.6版本)IDE(集成开发环境): 萌新推荐使用pycharm或python自带的IDLE.操作系统: Windows(考虑到多数小伙伴都是windows系统,后面的爬虫也都是在windows环境下操作)python的第三方库: requests 以管理员身份运行cmd在终端中输入: pip install request...原创 2018-08-02 17:24:10 · 1665 阅读 · 0 评论 -
入坑爬虫(三)Requests库的基本使用
Requests库的基本使用为什么要学习requests模块,而不是urllib - requests的底层实现就是urllib - requests在python2 和 python3 中通用, 方法完全一样 - requests简单易用 - requests能够自动帮助我们解压(gzip压缩的等)响应内容requests模块发送简单的ge...原创 2018-08-02 18:29:52 · 543 阅读 · 0 评论 -
入坑爬虫(八)数据提取之xpath
lxml是一款高性能的 Python HTML/XML 解析器,我们可以利用XPath,来快速的定位特定元素以及获取节点信息认识xml知识点: html和xml的区别xml中各个元素的的关系和属性xml的树结构<bookstore><book category="COOKING"> <title lang="en原创 2018-08-07 11:00:11 · 15969 阅读 · 2 评论 -
浅谈scrapy
1.为什么使用scrapy框架来写爬虫 ? 在python爬虫中:requests + selenium 可以解决目前90%的爬虫需求,难道scrapy 是解决剩下的10%的吗?然而并不是这样。scrapy框架是为了让我们的爬虫更强大、更高效, 让我们写的爬虫更具有健壮性。接下来我们一起认识一下它吧。2.什么是scrapy? Scrapy 使用了Twisted[‘tw...原创 2018-08-12 12:21:43 · 702 阅读 · 0 评论 -
Python深拷贝、浅拷贝详解
1. 浅拷贝 浅拷贝是对于一个对象的顶层拷贝 通俗的理解是:拷贝了引用,并没有拷贝内容 2. 深拷贝 深拷贝是对于一个对象所有层次的拷贝(递归) 3. 拷贝的其他方式分片表达式可以赋值一个序列 字典的copy方法可以拷贝一个字典 4. 注意点 浅拷贝对不可变类型和可变类型的copy不同copy....原创 2018-08-24 14:51:18 · 335 阅读 · 0 评论 -
入坑爬虫(四)Requests库的深入使用
上个小节我们学会使用了requests的get方法.下面我们开始学习如何使用requests库发送POST请求.哪些地方我们会用到POST请求?登录注册( POST 比 GET 更安全)需要传输大文本内容的时候( POST 请求对数据长度没有要求)1. requests发送post请求语法:用法: response = requests.post("http:...原创 2018-08-03 17:47:00 · 577 阅读 · 0 评论