- 博客(181)
- 收藏
- 关注
转载 常见状态码StatusCode
当浏览者访问一个网页时,浏览者的浏览器会向网页所在服务器发出请求。当浏览器接收并显示网页前,此网页所在的服务器会返回一个包含HTTP状态码的信息头(server header)用以响应浏览器的请求。HTTP状态码由三个十进制数字组成,第一个十进制数字定义了状态码的类型,后两个数字没有分类的作用。HTTP状态码共分为5种类型:HTTP状态码分类分类分类描述...
2019-09-12 16:22:00 682
转载 urllib详细版
urllib是python内置的处理HTTP请求的库,主要包含以下四个模块request 模块,是最基本的处理HTTP请求的模块。error 异常处理模块,如果出现请求错误,可以捕获这些错误,保证程序不会意外终止。parse 模块是一个工具模块,提供了处理url的很多方法。拆分,解析,合并等等。robotparser,主要用来识别网站的robots.txt文件,判断哪...
2019-09-12 15:25:00 417
转载 set uniion()
union()方法返回两个集合的并集,包含所有集合的元素,重复元素只会出现一次。语法: set.union(set1,set2)参数: set1必填参数,合并的目标集合 set2选填参数,其他要合并的集合,多个集合之间用逗号隔开。返回值: 返回一个新的集合。举例:set1 = { '1',"2","3"}se...
2019-09-12 10:04:00 227
转载 python urljoin
使用urllib的urljoin()拼接两个地址urlljoin的第一个参数是基础母站的url,第二个是需要拼接成绝对路径的url。from urllib import parseurl1 = "http://www.youtube.com/user/khanacademy"url2 = "123"new_url = parse.urljoin(url1,url2...
2019-09-12 09:20:00 515
转载 'gbk' codec can't decode byte 0xad in position 12: illegal multibyte sequence
原文链接:https://blog.csdn.net/shijing_0214/article/details/51971734使用python的时候,经常会遇到文本编码的问题,其中最常见的就是“'gbk' codec can't decode byte 0xad in position 12: illegal multibyte sequence”。解决方法:将“gbk”转化成...
2019-09-11 15:07:00 3376
转载 PHP入门
1.什么是PHP?PHP(“PHP: Hypertext Preprocessor”,超文本预处理器的字母缩写)是一种被广泛应用的开放源代码的多用途脚本语言,它可嵌入到 HTML中,尤其适合 web 开发。<html> <head> <title>Example</title> </h...
2019-08-31 14:44:00 109
转载 requests中text,content,json之间的区别
response.text : 返回一个字符串\n",content : 返回二进制\n",json() : 返回对象"转载于:https://www.cnblogs.com/wqzn/p/11392633.html
2019-08-22 09:49:00 1443
转载 有关pip报错的问题
错误消息:“Fatal error in launcher: Unable to create process using '"'解决办法: python3解决方案:python3 -m pip install xxx python2解决方案:python2 -m pip install xxx转载于:https://www.cnblogs.com/wqzn/...
2019-08-16 11:00:00 148
转载 坑
字典的删除操作popitem(),是删除字典的最后一个,不是随机删除。此处的随机其实是假的,正如列表的 pop() 方法总是弹出列表中最后一个元素,实际上字典的 popitem() 其实也是弹出字典中最后一个 key-value 对。由于字典存储 key-value 对的顺序是不可知的,因此开发者感觉字典的 popitem() 方法是“随机”弹出的,但实际上字典的 popitem()...
2019-08-15 14:12:00 100
转载 pycharm操作
快捷键我觉得用快捷键不仅能增加效率,操作起来还很帅。所以我就来分享一下PyCharm的快捷键吧~1、编辑(Editing)Ctrl + Space 基本的代码完成(类、方法、属性)Ctrl + Alt + Space 快速导入任意类Ctrl + Shift + Enter 语句完成Ctrl + P 参数信息(在方法中调用参数)Ctrl + Q 快速查看文档Shift + F...
2019-08-06 14:39:00 125
转载 python selenium 相关操作
selenium : 是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。支持的浏览器包括IE(7, 8, 9, 10, 11),Mozilla Firefox,Safari,Google Chrome,Opera等。这个工具的主要功能包括:测试与浏览器的兼容性——测试你的应用程序看是否能够很好得工作在不同浏览器和操作系统之上。测试...
2019-07-04 00:55:00 162
转载 python tkinter菜单
python3中,Tkinter编写菜单界面案例from tkinter import *top=Tk()top.wm_title("菜单")top.geometry("400x300+300+100")# 创建一个菜单项,类似于导航栏menubar=Menu(top)# 创建菜单项fmenu1=Menu(top)for item i...
2019-06-25 17:29:00 360
转载 初识Go
Go简单介绍 Go是谷歌2009年研发的第二款开源的编程语言。 Go语言专门针对多处理器系统应用程序的编程进行了优化,使用Go编译的程序可以媲美C或C++代码的速度,而且更加安全、支持并行进程。Go语言和其他语言的区别,以及自己的优点?学习曲线它包含了类C语法、GC内置和工程工具。这一点非常重要,因为Go语言容易学习,所以一个普通的大学生花一个...
2019-06-18 16:42:00 102
转载 Python _easygui详细版
1. msgbox msgbox(msg='(Your message goes here)', title=' ', ok_button='OK', image=None, root=None) msgbox() 显示一个消息和提供一个"OK"按钮,你可以指定任意的消息和标题,你甚至可以重写"OK"按钮的内容。import easygui as gg.m...
2019-06-12 18:07:00 286
转载 easygui _1
GUI---图形用户界面什么是GUI? GUI是Graphical User Interface(图形用户界面)的缩写。在GUI中,并不是键入文本和返回值,用户可以看到文本框,窗口,按钮等图形,而且可以用鼠标点击,还可以通过键盘输入。GUI是与程序交互的一种不同的方式。 有GUI的程序有三个基本的要素:输入,处理,输出。第一个GUI 我们一直都在使用GUI...
2019-06-11 16:08:00 121
转载 初始Turtle
---恢复内容开始---turtle库介绍 海龟作图最初源自20世纪60年代的Logo(创建于1967年,是一种教育编程语言)编程语言。常用函数说明 画笔的属性设置画笔的宽度 t.pensize()设置画笔的颜色 t.pencolor() 不传入参数的话,默认显示当前画笔的颜色,传入参数可以设置画笔的不用颜色("red、orange、green...
2019-06-02 09:21:00 319
转载 python介绍
python是一门什么语言? 编译型和解释型: 编程语言主要有编译型语言,解释型语言,静态语言和动态语言,强类型定义语言个弱类型语言。 编译型语言: 因为计算机只能认识机器语言,不认识高级语言,所以我们需要将高级语言转换成机器语言, 解释型语言: 在程序执行的时候,将高级语言一条一条的解释成机器语言来运行。编译型个解释型的优点以及缺点...
2019-04-20 15:24:00 98
转载 windows窗口启动redis
必须先得配置好环境变量,才能在窗口开启启动服务端:redis-server启动客户端:redis-cli转载于:https://www.cnblogs.com/wqzn/p/10675845.html
2019-04-09 11:25:00 75
转载 uwsgi 的启动、停止、重启
## 一、概念释义### WSGIWSGI 是一个Web服务器(如nginx)与应用服务器(如uWSGI)通信的一种规范(协议)。官方定义是,the Python Web Server Gateway Interface。从名字就可以看出来,这东西是一个Gateway,也就是网关。网关的作用就是在协议之间进行转换。在生产环境中使用WSGI作为python web的服务器。Pyth...
2019-04-09 11:22:00 375
转载 python出现SyntaxError: Non-ASCII character '\xe6' in file \的错误
出现这个问题的主要原因是因为python2的编码是ASCII码,文件中有中文的话就得使用utf8编码,只需要在文件的头部加上以下其中一种标注:一、在文件头部添加如下注释码:# coding=<encoding name> 例如,可添加# coding=utf-8二、在文件头部添加如下两行注释码:#!/usr/bin/python# -*- coding: ...
2019-04-01 13:46:00 1976
转载 安装twisted遇到的坑
在使用twisted框架的时候,我们需要知道他是干什么的? twisted支持很多种协议,包括传输层的TCP, UDP, TLS和引用层的HTTP和FTP等。twisted框架其主要发行版本是以python2为主的,最新版本是基于python2.7的twisted-15.4.0,目前为止,没有基于python3的twisted稳定的发行版。在window中,twisted...
2019-04-01 11:35:00 177
转载 数据分析
什么是数据分析?就是将一些杂乱无章的数据中将信息提取出来,总结所研究对象的内在规律。数据分析的三剑客? Numpy Pandas MatplotlibNumpy是干嘛的? 是Python语言扩展的一个程序库,支持大量的维度数据与矩阵运算,此外页针对数组运算提供了大量的数学函数库。开始创建ndarray 1.使用np.array()创建创建一...
2019-03-24 18:03:00 382
转载 pandas
import pandas as pdfrom pandas import Series,DataFrameimport numpy as np1、SeriesSeries是一种类似与一维数组的对象,由下面两个部分组成:values:一组数据(ndarray类型)index:相关的数据索引标签1)Series的创建两种创建方式:...
2019-03-24 18:02:00 97
转载 MySQL的慢日志
学习之前先要了解什么是慢日志,为什么要开启慢日志? MySQL的慢日志是mysql提供的一种日志记录。用来记录在MySQL运行的时候,响应超过阈值的语句。具体指运行时间超过long_query_time值的sql,就会被记录到慢日志中。long_query_time的值默认是10秒。默认的情况下,MySQL的慢日志默认是不开启的。如果不需要调优的话,一般不建议开启。因为慢日志或多或...
2019-03-24 17:46:00 124
转载 MySQL事务以及特征
1.什么是事务? 在现实生活中,我们往往会进行转账操作。转账可以分为两部分完成,转入和转出,只要两部分都完成了才算转账完成。在数据库中,这个过程是由两条sql语句来完成的,如果任意一方的语句没有执行,会导致两个账号的资金不能同步。 为了防止这种情况的发生,MySQL引入了事务。所谓的事务就是针对数据库的一组操作,可以由多条语句组成。事务具有同步的特点。2.使用事务,先...
2019-03-18 10:48:00 119
转载 formant
1.函数功能将一个数值进行格式化显示。2.如果参数format_spec未提供,则和调用str(value)效果相同,转换成字符串格式化。>>> format(3.1415936)'3.1415936'>>> str(3.1415926)'3.1415926'3. 对于不同的类型,参数format_spec可提供的...
2019-03-12 21:51:00 242
转载 增量式爬虫
概念:通过爬虫检测某网站的更新情况,以便可以爬取最新的数据。如何进行增量式的爬虫工作?在发送请求之前判断这个url是不是被之前爬取过在解析内容后判断这部分内容是不是之前爬取过在写入存储介质的时候,判断内容是不是已经在介质中存在分析:不难发现,其实增量爬取的核心是去重, 至于去重的操作在哪个步骤起作用,只能说各有利弊。在我看来,前两种思路需要根据实际情况取一...
2019-03-05 21:57:00 257
转载 分布式爬虫
问题:为什么原生的scrapy不能实现分布式?调度器不能被共享管道无法被共享scrapy-redis组件的作用是什么?提供了可以被共享的调度器和管道实现分布式爬虫的流程?1.环境安装:pip install scrapy-redis2.创建工程3.创建爬虫文件:RedisCrawlSpider RedisSpide...
2019-03-05 19:45:00 96
转载 CrawlSpider
作用:基于全栈数据的爬取。首先创建项目scrapy startproject choutiProcd choutiProscrapy genspider -t crawl chouti www.xxx.com【需求】: 爬取抽屉网段子类中所有的分页URL代码部分:# -*- coding: utf-8 -*-im...
2019-03-05 17:15:00 135
转载 如何提升scrapy爬取数据的效率
在配置文件中修改相关参数:增加并发默认的scrapy开启的并发线程为32个,可以适当的进行增加,再配置文件中修改CONCURRENT_REQUESTS = 100值为100,并发设置成了为100。降低日志等级在scrapy运行的时候,会输出大量的日志信息,为了减少cpu的使用率,可以设置log输出信息为INFO或者ERROR.在配置文件中编写LOG_L...
2019-03-05 16:12:00 300
转载 scrapy中的selenium
引入在通过scrapy框架进行某些网站数据爬取的时候,往往会碰到页面动态数据加载的情况发生,如果直接使用scrapy对其url发请求,是绝对获取不到那部分动态加载出来的数据值。但是通过观察我们会发现,通过浏览器进行url请求发送则会加载出对应的动态加载出的数据。那么如果我们想要在scrapy也获取动态加载出的数据,则必须使用selenium创建浏览器对象,然后通过该浏览器对象进行...
2019-03-04 20:27:00 217
转载 scrapy五大核心组件和中间件以及UA池和代理池
五大核心组件的工作流程引擎(Scrapy)用来处理整个系统的数据流处理, 触发事务(框架核心)调度器(Scheduler)用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 可以想像成一个URL(抓取网页的网址或者说是链接)的优先队列, 由它来决定下一个要抓取的网址是什么, 同时去除重复的网址下载器(Downloader)...
2019-03-04 17:43:00 280
转载 scrapy处理post请求的传参和日志等级
一.Scrapy的日志等级 - 在使用scrapy crawl spiderFileName运行程序时,在终端里打印输出的就是scrapy的日志信息。 - 日志信息的种类: ERROR : 一般错误 WARNING : 警告 INFO : 一般的信息 DEBUG : 调试信息 ...
2019-03-04 16:09:00 178
转载 移动端数据爬取
1 什么是Fiddler?Fiddler是位于客户端和服务器端的HTTP代理,也是目前最常用的http抓包工具之一 。 它能够记录客户端和服务器之间的所有 HTTP请求,可以针对特定的HTTP请求,分析请求数据、设置断点、调试web应用、修改请求的数据,甚至可以修改服务器返回的数据,功能非常强大,是web调试的利器。既然是代理,也就是说:客户端的所有请求都要先经过Fidd...
2019-03-01 21:01:00 145
转载 python网络爬虫之图片链家在技术.seleninum和PhantonJS
一.什么是图片懒加载?案例分析:抓取站长素材http://sc.chinaz.com/中的图片数据#!/usr/bin/env python# -*- coding:utf-8 -*-import requestsfrom lxml import etreeif __name__ == "__main__": url = 'http://sc....
2019-03-01 20:58:00 179
转载 python爬虫之处理验证码
云打码实现处理验证码处理验证码,我们需要借助第三方平台来帮我们处理,个人认为云打码处理验证码的准确度还是可以的首先第一步,我们得先注册一个云打码的账号,普通用户和开发者用户都需要注册一下然后登陆普通用户,登陆之后的界面是这样的,你需要有几分才可以使用它.第二步登陆开发者用户:然后点击开发文档进入之后点击下载python相关的模块下载之...
2019-03-01 20:54:00 211
转载 python爬虫requests模块
基于如下5点展开requests模块的学习什么是requests模块requests模块是python中原生的基于网络请求的模块,其主要作用是用来模拟浏览器发起请求。功能强大,用法简洁高效。在爬虫领域中占据着半壁江山的地位。为什么要使用requests模块因为在使用urllib模块的时候,会有诸多不便之处,总结如下:手动处理url编码手动处...
2019-03-01 20:47:00 142
转载 scrapy框架持久化存储
1.基于终端指令的持久化存储保证爬虫文件的parse方法中有可迭代类型对象(通常为列表or字典)的返回,该返回值可以通过终端指令的形式写入指定格式的文件中进行持久化操作。执行输出指定格式进行存储:将爬取到的数据写入不同格式的文件中进行存储 scrapy crawl 爬虫名称 -o xxx.json scrapy crawl 爬虫名称 -o xxx....
2019-03-01 20:34:00 128
转载 scrapy框架简介和基础应用
一.什么是Scrapy?Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,非常出名,非常强悍。所谓的框架就是一个已经被集成了各种功能(高性能异步下载,队列,分布式,解析,持久化等)的具有很强通用性的项目模板。对于框架的学习,重点是要学习其框架的特性、各个功能的用法即可。二.安装Linux: pip3 install scrapy...
2019-03-01 16:05:00 112
转载 关于DOM的事件操作
1.事件:JS是以事件驱动为核心的一门语言。事件的三要素:事件的三要素:事件源、事件、事件驱动程序。 谁引发的后续事件,谁就是事件源。总结如下:事件源:引发后续事件的html标签。事件:js已经定义好了(见下图)。事件驱动程序:对样式和html的操作。也就是DOM。代码书写步骤如下:(重要)(1)获取事件源:docume...
2019-02-27 21:11:00 147
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人