自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(23)
  • 资源 (1)
  • 收藏
  • 关注

原创 Python爬虫进阶第一课:进程,线程的初步了解

一、进程程序并不能单独和运行只有将程序装载到内存中,系统为他分配资源才能运行,而这种执行的程序就称之为进程。程序和进程的区别在于:程序是指令的集合,它是进程的静态描述文本;进程是程序的一次执行活动,属于动态概念。例如我们写一个hello程序,当这个程序再操作系统上运行的时候,操作系统会给我们一种假象,好像系统上就这一个程序在运行。程序看上去是独占的使用处理器,主存,和IO设备,处理器看上去就像在不间断的执行程序中的指令,即该程序的代码和数据是操作系统内存中唯一的对象。这其实就是通过进程实现的。进程的概

2020-09-25 16:34:44 165

原创 Python爬虫进阶第二课:关于深度优先和广度优先

深度优先算法和实现广度优先算法和实现在爬虫系统中,待抓取URL队列是很重要的一部分,待抓取URL队列中的URL以什么样的顺序排队列也是一个很重要的问题,因为这涉及到先抓取哪个页面,后抓取哪个页面。而决定这些URL排列顺序的方法,叫做抓取策略。下面是常用的两种策略:深度优先、广度优先深度优先深度优先是指网络爬虫会从起始页开始,一个链接一个链接跟踪下去,处理完这条线路之后再转入下一个起始页,继续追踪链接,通过下图进行理解:注:scrapy默认采用的是深度优先算法这里是深度优先,所以这里的爬.

2020-09-19 19:21:06 544

原创 Python爬虫第八课:爬虫综合案例

Python爬虫第八课:爬虫综合案例通过前面的文章已经学习了基本的爬虫知识,通过这个例子进行一下练习,毕竟前面文章的知识点只是一个一个单独的散知识点,需要通过实际的例子进行融合分析网站其实爬虫最重要的是前面的分析网站,只有对要爬取的数据页面分析清楚,才能更方便后面爬取数据目标站和目标数据目标地址:http://www.hshfy.sh.cn/shfy/gweb2017/ktgg_search.jsp?zd=splc目标数据:目标地址页面的中间的案开庭公告数据对数据页面分析从打开页面后可以看

2020-09-18 14:18:49 358

原创 Python爬虫第七课:Selenium库的使用

Python爬虫第六课:Selenium库的使用selenium 是一套完整的web应用程序测试系统,包含了测试的录制(selenium IDE),编写及运行(Selenium Remote Control)和测试的并行处理(Selenium Grid)。Selenium的核心Selenium Core基于JsUnit,完全由JavaScript编写,因此可以用于任何支持JavaScript的浏览器上。selenium可以模拟真实浏览器,自动化测试工具,支持多种浏览器,爬虫中主要用来解决JavaScri

2020-09-17 16:31:56 284

原创 python运行Selenium.Chrome()时selenium.common.exceptions.WebDriverException: Message: ‘chromedriver‘ exe

解决:selenium.common.exceptions.WebDriverException: Message: ‘chromedriver’ executable needs to be in PATH. Please see https://sites.google.com/a/chromium.org/chromedriver/home以Chrome为例:解决办法:安装与浏览器版本匹配的webdriver1、打开谷歌浏览器, 在地址栏输入 chrome://version/ 查看版本信息:

2020-09-16 14:59:08 2146

原创 Python爬虫第六课:PyQuery库的使用

Python爬虫第六课:PyQuery库的使用PyQuery库也是一个非常强大又灵活的网页解析库,如果你有前端开发经验的,都应该接触过jQuery,那么PyQuery就是你非常绝佳的选择,PyQuery 是 Python 仿照 jQuery 的严格实现。语法与 jQuery 几乎完全相同,所以不用再去费心去记一些奇怪的方法了。官网地址:http://pyquery.readthedocs.io/en/latest/jQuery参考文档: http://jquery.cuishifeng.cn/PyQ

2020-09-16 14:57:41 118

原创 Python爬虫第五课:BeautifulSoup库的使用

Python爬虫第五课:BeautifulSoup库的使用上一篇文章的正则,其实对很多人来说用起来是不方便的,加上需要记很多规则,所以用起来不是特别熟练,而这节我们提到的beautifulsoup就是一个非常强大的工具,爬虫利器。beautifulSoup “美味的汤,绿色的浓汤”一个灵活又方便的网页解析库,处理高效,支持多种解析器。利用它就不用编写正则表达式也能方便的实现网页信息的抓取快速使用通过下面的一个例子,对bs4有个简单的了解,以及看一下它的强大之处:复制代码from bs4 im

2020-09-14 10:32:50 227

原创 Python爬虫第四课:正则表达式

Python爬虫第四课:正则表达式正则表达式是对字符串操作的一种逻辑公式,就是 事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符”,这个“规则字符” 来表达对字符的一种过滤逻辑。正则并不是python独有的,其他语言也都有正则python中的正则,封装了re模块常用的匹配模式\w 匹配字母数字及下划线\W 匹配f非字母数字下划线\s 匹配任意空白字符,等价于[\t\n\r\f]\S 匹配任意非空字符\d 匹配任意数字\D

2020-09-13 17:16:18 95

原创 Python爬虫第三课:Urllib库和Requests库的基本用法(二)

Requests库的基本用法Requests是用python语言基于urllib编写的,采用的是Apache2 Licensed开源协议的HTTP库如果你看过上篇文章关于urllib库的使用,你会发现,其实urllib还是非常不方便的,而Requests它会比urllib更加方便,可以节约我们大量的工作。(用了requests之后,你基本都不愿意用urllib了)一句话,requests是python实现的最简单易用的HTTP库,建议爬虫使用requests库。默认安装好python之后,是没有安装re

2020-09-12 17:42:54 588

原创 Python爬虫第二课:Urllib库和Requests库的基本用法(一)

Urllib库的基本用法官方文档地址:https://docs.python.org/3/library/urllib.htmlUrllib是python内置的HTTP请求库包括以下模块urllib.request 请求模块urllib.error 异常处理模块urllib.parse url解析模块urllib.robotparser robots.txt解析模块urlopen关于urllib.request.urlopen参数的介绍:urllib.request.urlopen

2020-09-11 11:32:54 552

原创 Python爬虫第一课:初试爬虫

什么是爬虫?模拟浏览器打开网页,获取网页中我们想要的那部分数据浏览器打开网页的过程:当你在浏览器中输入地址后,经过DNS服务器找到服务器主机,向服务器发送一个请求,服务器经过解析后发送给用户浏览器结果,包括html,js,css等文件内容,浏览器解析出来最后呈现给用户在浏览器上看到的结果所以用户看到的浏览器的结果就是由HTML代码构成的,我们爬虫就是为了获取这些内容,通过分析和过滤html代码,从中获取我们想要资源(文本,图片,视频…)爬虫的基本流程发起请求通过HTTP库向目标站点发起请求,也

2020-09-10 16:14:45 175

原创 Python爬虫之request和response

什么是Request,Response浏览器发送消息给网址所在的服务器,这个过程就叫做HTPP Request服务器收到浏览器发送的消息后,能够根据浏览器发送消息的内容,做相应的处理,然后把消息回传给浏览器,这个过程就是HTTP Response浏览器收到服务器的Response信息后,会对信息进行相应的处理,然后展示Request中包含什么?请求方式主要有:GET/POST两种类型常用,另外还有HEAD/PUT/DELETE/OPTIONSGET和POST的区别就是:请求的数据GET是在u

2020-09-10 16:11:57 1593 1

原创 linux常用shell命令合集

linux命令合集今天给大家推荐一个linux命令的合集,相信基于linux开发的个人初学者,都会面对和Windows系统不一样的图形界面,更多的是运用命令行的方式来运行我们的程序。首先推荐给大家一个网址:https://man.linuxde.net/,大家有需要的话可以精确查询。接下来我们来简单介绍一下常用的命令:系统信息arch 显示机器的处理器架构uname -m 显示机器的处理器架构uname -r 显示正在使用的内核版本dmidecode -q 显示硬件系统部件 - (SMBIO

2020-09-09 19:50:40 194

原创 python编辑器:jupyter notebooks安装与使用

python编辑器:jupyter notebooks安装与使用最近遇到.ipynb的文件格式,在百度之后发现这也是一种python格式的文件,因此,本文介绍一下这款打开这种文件的软件有很多,比如Anaconda也可以,但是本身已经有一定的python开发的环境在了,就不想再安装一个软件的情况下,看到用pip就可以对这种文件进行编辑。本文仅针对windows环境下安装和配置Jupyter Notebooks 。Jupyter Notebook是一个Web应用程序,允许您创建和共享包含实时代码,方程,可视

2020-09-09 12:25:02 814 2

原创 django实战:查询(三)关联查询

django实战:查询(三)关联查询关系字段类型关系型数据库的关系包括三种类型:ForeignKey:一对多,将字段定义在多的一端中。ManyToManyField:多对多,将字段定义在任意一端中。OneToOneField:一对一,将字段定义在任意一端中。可以维护递归的关联关系,使用’self’指定,详见"自关联"。一对多关系参见booktest应用中的BookInfo类和HeroInfo类。#定义图书模型类BookInfoclass BookInfo(models.Model):

2020-09-06 22:51:41 2246

原创 python编辑器pycharm的安装与使用

pycharm的安装本文介绍了手把手教你如何安装Pycharm,分享给大家,具体如下:1、首先去Pycharm官网,或者直接输入网址:http://www.jetbrains.com/pycharm/download/#section=windows点击跳转,下载PyCharm安装包,根据自己电脑的操作系统进行选择,对于windows系统选择下图的框框所包含的安装包。professional 表示专业版,community 是社区版,推荐安装社区版,因为是免费使用的。2、双击下载的安装包,进行安装

2020-09-06 22:22:10 743

原创 django实战:查询(二)查询集

django实战:查询集查询集表示从数据库中获取的对象集合,在管理器上调用某些过滤器方法会返回查询集,查询集可以含有零个、一个或多个过滤器。过滤器基于所给的参数限制查询的结果,从Sql的角度,查询集和select语句等价,过滤器像where和limit子句。返回查询集的过滤器如下:all():返回所有数据。filter():返回满足条件的数据。exclude():返回满足条件之外的数据,相当于sql语句中where部分的not关键字。order_by():对结果进行排序。返回单个值的过滤器

2020-09-05 16:31:28 207

原创 python入门第一课:在Windows上安装python

在Windows上安装pythonpython语言近期因为人工智能、大数据挖掘或者网络爬虫方面都非常适配,所以越来越多人学习python的开发。不管你出于什么原因,python开发的第一步都是需要我们在操作系统上安装python。首先,我们先到python官网去下载python下载官网找到自己电脑适配的版本下载安装就可以。在Windows系统中,我们只需要下载.exe文件双击运行就可以快速安装。一直默认就可以了。最后验证安装成功没有大家可能会遇到各种问题。验证安装成功很简单,在快捷键win

2020-09-04 15:10:28 273

原创 django实战:查询(一):条件查询、聚合函数

django实战:查询django中查询可分为条件查询、查询集、关联查询等。条件查询实现sql中where的功能,调用过滤器filter()、exclude()、get(),下面以filter()为例。通过"属性名_id"表示外键对应对象的id值。语法如下:说明:属性名称和比较运算符间使用两个下划线,所以属性名不能包括多个下划线。属性名称__比较运算符=值查看mysql数据库日志查看mysql数据库日志可以查看对数据库的操作记录。 mysql日志文件默认没有产生,需要做如下配置:s

2020-09-04 14:27:00 408

原创 django实战:模型类

定义属性Django根据属性的类型确定以下信息:当前选择的数据库支持字段的类型渲染管理表单时使用的默认html控件在管理站点最低限度的验证django会为表创建自动增长的主键列,每个模型只能有一个主键列,如果使用选项设置某属性为主键列后django不会再创建自动增长的主键列。默认创建的主键列属性为id,可以使用pk代替,pk全拼为primary key。注意:pk是主键的别名,若主键名为id2,那么pk是id2的别名。属性命名限制:不能是python的保留关键字。不允许使用连续

2020-09-03 19:23:49 117

原创 django实战:上传文件操作,下载文件

django上传文件第一步:我们需要把前端的模板文件的form表单创建好<!DOCTYPE html><html lang="en"><head> <meta charset="UTF-8"> <title>文件上传</title></head><body> <form action="/upload/" method="post" enctype="multipart/

2020-09-01 15:38:27 547

原创 django实战:各种后台管理系统的登录注册认证功能

auth模块Auth模块是Django自带的用户认证模块,可以实现包括用户注册、用户登录、用户认证、注销、修改密码等功能。默认使用 auth_user 表来存储用户数据。auth模块的使用申请超级管理员用户首先执行数据迁移,分为两步1.1生成迁移文件命令python manage.py makemigrations执行生成迁移文件命令后,会在应用目录下的migrations目录中生成迁移文件。1.2 执行迁移命令如下:python manage.py migrate迁移得到数

2020-09-01 14:20:24 1055

原创 windows系统下如何进行django开发

Windows系统下如何进行django开发(一)用python快速开发我们的第一个网站今天学习的目的是让django项目跑起来。让我们看到实实在在的成果。那django项目是啥?django项目是用纯python写的web应用开发框架。啥是框架?有了框架你就不用写基础的代码了,你可以把精力放在开发项目的业务逻辑上,底层基础的事情就让框架来做,当然你牛了,可以改进完善django框架,也可以开发自己的框架卖钱。之后再学python,就能更好的理解python的语法到底有什么用,在哪里能用的上。

2020-08-31 15:43:49 1893

B2B2C商城系统wamp开发的

多商户的网上商城,买电子书为主,至于买什么可以自己修改,对于学习很有帮助

2019-04-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除