python学习
qq_39239110
这个作者很懒,什么都没留下…
展开
-
线程和进程的区别
https://www.cnblogs.com/yangmingxianshen/p/7922574.html转载 2019-12-11 20:24:04 · 110 阅读 · 0 评论 -
CrawlSpider爬虫
之前使用的普通的spider,我们需要自己在解析完整个页面后获取下一页的url,然后重新发送一个请求。有时候我们想要这样做,只要满足某个条件的url,都给我进行爬取。那么我们就可以通过CrawlSpider来帮我们完成了。CrawlSpider继承自Spider,只不过是在之前的基础之上增加了新的功能。可以定义爬取的url的规则,以后scrapy碰到满足条件的url都进行爬取,而不用手动的yiel...原创 2019-11-27 21:46:09 · 162 阅读 · 0 评论 -
多线程网络爬虫
多线程网络爬虫:什么是多线程:默认情况下,一个程序只有一个线程,代码依次线性执行的,而多线性则可以并发执行,一次性多个人做多件事。自然比单线程更快threading某块是python中专门用来做多线程编程的模块,threading模块中最常见的类是Thread,使用threading某块下的Thread就可以创建 一个多线程,这个类有一个‘target’参数,需要指定一个函数,那么以后这个...原创 2019-11-13 20:35:15 · 332 阅读 · 0 评论 -
爬虫之数据存储
1.JSON文件格式处理JSON(JavaScript Object Notation,JS对象标记)是一种轻量级的数据交换格式。它基于ECMAScript的一个子集,采用完全独立与编程语言的文本格式来存储和表示数据。简洁和清晰的层次结构使得JSON成为理想的数据交换语言。易于人阅读和编写,同时也易于机器解析和生成。并有效地提高网络传输效率JSON 支持的数据格式:对象(字典):使用花括号...原创 2019-11-08 16:32:16 · 229 阅读 · 0 评论 -
爬虫中的网络请求
http协议:超文本传输协议,是一种发布和接收HTML页面的方法,服务器端口号是80端口号https协议:是http协议的加密版本,在http下加入了SSL层。服务器端口号是443端口常见的请求的Method在http协议中,定义了八种请求方法,这里介绍常用的两种:分别是get请求和post请求1.get请求:一般情况下,只从服务器获取数据下来,并不会对服务器资源产生任何影响的时候会用ge...原创 2019-10-29 10:08:31 · 426 阅读 · 0 评论 -
Scrapy框架
Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。使用Scrapy抓取一个网站有四个步骤:一、创建一个Scrapy项目;可以通过命令行进行创建,例如创建一个scrapyex的一个项目:$ scrapy startproject scrapyex这种图是用pycharm打开的scrapyex项目的目录二...原创 2019-10-17 21:26:44 · 404 阅读 · 0 评论 -
反反爬虫机制浅析
https://www.jianshu.com/p/8dd187672957转载 2019-10-17 19:17:17 · 115 阅读 · 0 评论 -
python3.7.3成功安装scrapy
先到cmd命令行下更新pip的版本号,使用以下命令更新$ python -m install pip --upgrade pip如果安装过程中失败,可能是网络的问题导致的,就多重复运行上面的命令,安装成功后就用pip -V检查pip版本号,看是否升级成功。接着直接使用以下命令安装scrapy:$ pip install scrapy如果没什么网络问题,等几分钟scrapy就安装好了在c...原创 2019-10-17 16:48:40 · 213 阅读 · 0 评论 -
python的正则表达式学习
正则表达式是一个特殊的字符序列,能够帮助我们很方便的检查一个字符串是否与某种模式匹配。re模块使python拥有了全部的正则表达式功能。下面就来介绍一下re模块中的一些函数:re.match 函数re.match 尝试从字符串的起始位置匹配一个模式,如果不是起始位置匹配成功的话,match()就返回none。否则返回一个匹配的对象。语法:re.match(pattern, string, ...原创 2019-10-17 15:03:32 · 148 阅读 · 0 评论 -
http状态码大全
响应码由三位十进制数字组成,它们出现在由HTTP服务器发送的响应的第一行。响应码分五种类型,由它们的第一位数字表示:1.1xx:信息,请求收到,继续处理2.2xx:成功,行为被成功地接受、理解和采纳3.3xx:重定向,为了完成请求,必须进一步执行的动作4.4xx:客户端错误,请求包含语法错误或者请求无法实现5.5xx:服务器错误,服务器不能实现一种明显无效的请求下表显示每个响应码及其...转载 2019-10-17 15:00:32 · 115 阅读 · 0 评论 -
网络爬虫是什么
转载:https://blog.csdn.net/zw0Pi8G5C1x/article/details/89078072转载 2019-10-12 19:20:44 · 91 阅读 · 0 评论 -
python图形化界面编程
使用命令在pycharm中安装easygui:首先打开命令窗口,输入一下命令检查电脑上是否安装pip:$ pip -V没有可以参考一下网址进行pip 安装:https://blog.csdn.net/qq_41397201/article/details/86530306电脑上安装了pip后,使用一下命令进行easygui的安装;$ pip install easygui通过这个命...原创 2019-09-16 16:05:24 · 541 阅读 · 0 评论 -
学习 pickle
Python 提供的pickle 模块可以用来序列化对象并保存到磁盘中,并在需要的时候读取出来,任何对象都可以执行序列化操作。例如转换一个列表:list = [123,3.14,‘小甲鱼’,[‘another list’]]一般基本操作为:第一步:先以二进制的方式打开一个文件,若文件不存在就会自动创建该文件。pickle_file = open(‘list.pck’,‘wb’);第二步...原创 2019-09-16 11:40:17 · 195 阅读 · 0 评论 -
OS模块与OS.path 模块的学习
Os.path模块可参考:https://www.runoob.com/python/python-os-path.htmlos模块可参考:https://www.runoob.com/python/os-file-methods.html原创 2019-09-16 11:22:17 · 72 阅读 · 0 评论 -
python解决汉诺塔问题
汉诺塔问题描述有三根顶针,在第一根顶针上放着若干个盘子,且小盘子在大盘子上面,现把这些盘子从第一根顶针上移动到第三根顶针上,且小盘子依旧在大盘子之上。在移动的过程中可以借助第二根顶针,每次只能移动一个盘子,且小盘子要在大盘子上面,如何移动才能使所有盘子从第一根顶针到第三根顶针上。解决思想:采用递归迭代的方法,先将第n-1个盘子移动到第二根顶针上,让后将第一根顶针上的盘子移动到第`三根顶针上,...原创 2019-09-04 10:15:16 · 640 阅读 · 0 评论