自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(25)
  • 资源 (1)
  • 收藏
  • 关注

原创 数据结构顺序查找中对“哨兵“理解

数据结构顺序查找中对"哨兵"理解定义了查找的数据表类型,首先了解下这张表的结构体。typedef struct{ int* data; int length;}SSTable;这里建表的时候是长度是按照正常分配的但是第一个位置空出来给哨兵的。typeof search_(SSTable ST,int key){ ST.data[0] = key; int i= ST.TableLen;//长度 while(ST.data[i] != key){ //从后往前遍历 i --; }

2020-09-03 16:17:02 1957 5

原创 执行hexo inint 命令报错hexo:无法加载文件.....\npm\hexo.psl,因为在此系统中禁止运行脚本

在默认情况下,我们是无法执行powershell脚本的, 需要更改执行策略。Restricted //不允许任何脚本运行win10下更改执行策略:1.打开设置2.搜索power选择选项:允许powershell较笨在不签名的情况下运行3.勾选,点击应用就可以了...

2019-11-13 11:01:31 1971 5

原创 python抓取处理word文档

前面一篇讲到了处理pdf的内容,今天说下python对word的处理。其实python对word文档的支持不够。为读取docx内容,可以使用以下方法:(1)利用urlopen抓取远程word docx文件;(2)将其转换为内存字节流;(3)解压缩(docx是压缩后文件);(4)将解压后文件作为xml读取(5)寻找xml中的标签(正文内容)并处理下面是代码,传入url即可。def w...

2019-09-23 09:46:12 2583 1

原创 python+markdown+Pygments高亮代码

最近在写一个个人博客,结合markdown来写文章。可是如果只用markdown模块来写的话不能展示出代码块的高亮以及表格的格式。下面我们来看下如何使用markdown+pygments来高亮代码下载相关包pip install markdown pip install Pygments生成相应的css代码这个css代码之后要在前端引用pygmentize -S def...

2019-09-03 10:19:54 1468 1

原创 1.window搭建python3环境

工欲善其事,必先利其器!在开始爬虫之前,必须要把环境搭建好。这里介绍下windows中如何搭建python3环境。官方网站: http://python.org下载地址: https://www.python.org/downloads第三方库: https://pypi.python.org/pypi官方文档 :https://docs.python.org/3中文教程 :http...

2019-08-23 11:08:23 236

原创 解决外部不能访问centos服务器的端口问题

往往我们在启动一个应用,比如web应用。外部却不能访问。对于新手来说是很焦虑的。1.首先检查是否是0.0.0.0:port,如果不是请设置。2.检查端口号是否开启这里提供一个在线检查服务器的端口号的网址:http://coolaf.com/tool/port以百度为例:输入域名或者IP地址如果没有开放提供以下命令进行操作:(1)查看已经开放的端口:firewall-cmd --l...

2019-08-08 15:40:41 3212

原创 动态抓取网站之scrapy-splash

抓取动态网站除了selenium还有splash。下面介绍下splash试如何使用的。并且以中国人民银行这个网站为例来讲解Splash JavaScript 渲染服务,是 个带有 HTTPAPI 的轻量级浏览器,同时它对接了 Python中的 Twisted QT 利用它,我们同样可以实现动态 染页面的抓取功能介绍利用 Splash ,我们可以实现如下功能:口异步方式处理多个网页渲染过程;...

2019-07-26 16:33:00 450

原创 python爬虫常用的解析库

python支持很多很强大的解析库。下面我总结了几种,基本上熟练掌握一两个解析这块就没任何问题了。1.XPathXPath 全称 XML Path Language ,即 XML 路径语言,它是一门在 XML 文档中查找信息的语言它最初是用来搜寻 XML 文档的,但是它同样适用于 HTML 文档的搜索使用之前安装好 lxml 库如果想查询更多 XPath 的用法,可以查看: http...

2019-07-25 20:27:47 1279

原创 python获取万年历数据,判断一年中的某一天是否为节假日

公司最近有一个需求需要给后端提供一份万年历数据。显示一年中的每一天是工作日就还是节假日。网上有一些api接口,当然这些接口时需要收费的。我整理了一下网上的资料,写了一些代码来完成这个任务。首先获取一年中的所有日期:def isLeapYear(years): ''' 通过判断闰年,获取年份years下一年的总天数 :param years: 年份,int :re...

2019-07-15 15:46:14 1454

原创 Flask-请求钩子

首先了解下flask设计请求钩子的作用是什么,其实请求钩子就是为了让每个视图函数避免编写重复功能的代码设施的功能。其实和scrapy,django中的中间件有点相似之处。请求钩子的设计能够很有效的提高代码的质量,以及实现一些很好的应用场景。falsk有以下几种钩子1.before_first_request:在处理第一个请求前运行。应用场景:比如数据库连接,数据库连接只需一次。第一次请求的时...

2019-07-12 16:59:33 218

原创 Flask中路由的各种定义方式

请求方式的限定使用methods参数指定可接受的请求方式,可以是多种。@app.route('/',methods=['GET', 'POST'])def hello(): return 'hello world'路由查找方式同一路由指向两个不同的函数,在匹配过程中,至上而下依次匹配。from flask import Flaskapp = Flask(__name__)...

2019-07-11 17:06:28 819

原创 Flask简介

在说Flask之前我们先来谈谈web。Web应用程序的本质HTTP通讯过程客户端(浏览器,APP,PC软件,Ajax)发送请求,一般是请求头,请求体。建立TCP链接。服务器按照HTTP协议的格式解析数据将解析的数据进行路由分发。找到对应的视图函数,执行对应的逻辑代码。组织要返回的数据,按照HTTP协议封装成响应报文。为什么要用web框架web网站发展至今,特别是服务器端,涉及到的知识、...

2019-07-11 14:10:49 237

原创 怎么理解python中的关键字yield

用过scrapy的同学都知道,scrapy中会出现yield这个关键字。开始的时候我其实我知道他是生成器的一种标志,但并不能深刻的理解这个东西。在工作中的一些场景中我深刻的体会到了生成器的好用之处。首先我举一些应用场景来帮助大家理解为何我们要使用这个生成器。假如现在我们需要生成1到100的数字。我们很容易想到用列表推导式。numbers = [i for i in range(1,101)]...

2019-07-11 10:31:30 220

原创 Docker基础+常用命令

1.docker简介Docker 是一个开源的应用容器引擎,基于 Go 语言 并遵从Apache2.0协议开源。Docker 可以让开发者打包他们的应用以及依赖包到一个轻量级、可移植的容器中,然后发布到任何流行的 Linux 机器上,也可以实现虚拟化。2.docker架构docker的容器通过docker的镜像来创建,相当于面向对象里的对象和类镜像(类) 容器(对象)。3.Dock...

2019-07-11 09:52:25 150

原创 python练习题---给定一个整数数组 nums 和一个目标值 target,请你在该数组中找出和为目标值的那 两个 整数,并返回他们的数组下标。

收集一些python的练习题,在追求应用的同时千万不要忘了基础的东西,我会不定期的总结一些我做过的小题目,大家一起进步!题目描述给定一个整数数组 nums 和一个目标值 target,请你在该数组中找出和为目标值的那 两个 整数,并返回他们的数组下标。解题一这道题拿过来首先很容易想到暴力解决没错我第一步也是这么干的,很容易想到两个循环进行判断,这个代码很容易看的懂,也很容易理解,不做多解释...

2019-07-09 19:40:19 7233 1

原创 python实现企查猫登录

上一篇文章写了企查猫的注册,当我们注册了一批帐号之后了就有了帐号池,通过登录,利用这些帐号我们可以搭建我们的cookie池。进而为了后面的爬取做铺垫。1.分析接口通过测试找到登录的接口同样登录的接口也是一个post请求2.直接上代码 res_ = requests.get('https://www.qichamao.com/') login_url = 'https://w...

2019-07-09 19:16:00 1178

原创 python实现企查猫的自动化注册

企查猫网站也是一个集成的工商信息的网站,相对企查查,天眼查这些网站,这个网站相对比较好爬一些。但是很多信息是需要登录的。这也就要求我们必须要能够有一些帐号来做支撑。这里根据公司的需求做了一个企查猫的注册脚本。1.首先分析注册接口通过抓包发现注册接口是一个post请求,并且没有什么加密的东西,所以就不需要用selenium来做了。2.通过第三方获得短信验证码这里有很多第三方的平台,平...

2019-07-09 18:59:56 949

原创 python-简单版贪吃蛇游戏

在开始讲解之前先来感受下游戏好了废话不多说上代码1.初始化游戏界面和一些必要的全局变量 # 游戏窗口的长和宽 X = 640 Y = 480 def __init__(self): # 初始化Pygame库 pygame.init() # 初始化一个游戏界面窗口 self.DISPLAY = pygam...

2019-07-09 15:31:00 446 1

原创 初入IT行业的心酸+面试心路历程

我相信一定有这么一批刚入行的同学都曾经怀疑过自己到底适不适合做IT这一行。一边给自己打鸡血,一边在挫折中一遍一遍的否定自己。然而对于刚入行的朋友们,今天我想和你说点什么。大学状态本人大学学的是信息管理与信息系统。这个专业就很尴尬,它不仅要学习管理学的东西还要学习计算机专业的知识,但是学的都很浅。我当时也是因为调剂才选到这个专业的,说到高考时,一把辛酸泪,这里省略一万字。大一的时候还是比较认真...

2019-07-09 10:53:04 1014

原创 python爬虫人工智能解析文章

之前在公司做一个项目,项目需求是按照标签分类,去不同网站上爬取文章的内容,标题等。然后我就一个网站一个网站的去配xpath,可是网站特别多的时候,领导就会对我提出一个需求能不能,写一种程序然后用来解析所有的网站,也就是智能化解析。这对我一个刚刚做爬虫不久的新手就是很头疼了。于是各种网上找资料,于是发现了DIFFBOT这个东西。官网https://www.diffbot.com,注册后会有15天的免...

2019-07-08 17:19:13 1069

原创 爬虫对pdf链接文本处理

最近公司有个爬虫需求需要爬取一个网站的文本内容,但是网站都是pdf的格式,以链接方式呈现出来。我一开始的思路就是把pdf下载到本地下来然后处理pdf,但是这样会很麻烦。如果直接处理pdf链接然后返回pdf中的文本就是最好了。于是在网上找了一些资料,自己封装了一个方法。主要代码:from urllib.request import urlopenfrom pdfminer.converte...

2019-07-03 17:44:25 2197 7

原创 Flask中的表单

web表单web表单是web应用程序的基本功能在Flask中,为了处理web表单,我们一般使用Flask-WTF扩展,它封装了WTForms,并且有验证表单数据的功能WTForms支持的HTML标准字段字段对象 说明 StringField 文本字段 TextAreaField 多行文本字段 PasswordField 密码文本字段 Hidd...

2019-05-30 15:24:41 278

原创 django模型

django开发web中,非常重要的一步就是模型的构建,这也是我认为django web开发的核心。每一个模型都是映射一张数据库表,每一个模型也都是一个python的类,而一个模型类的每一个属性都是相当于一个表的字段。也就是说模型类帮我们自动的生成了一些数据库的API,那这样是不是很方便呢?

2019-05-15 10:03:38 137

原创 scrapy ImagesPipeline分类获取图片的小工具

喜欢写文章的都知道,有时候有一些好的配图会使得文章看起来更加的丰富,最近我就在想能不能写一个而工具来获取我想要的图片,分类存储,方便我以后写东西用。下面我就分享下我的成果。目标源网址:找了很多网站,但是比较后还是百度图片信息比较全一点。而且图片质量也比较好。采用scrapy中的ImagesPipeline来下载图片class DownImgloadPipeline(ImagesPipel...

2019-04-28 18:01:15 661

原创 windows中pycharm配置anaconda

windows中开发python一般情况下下载python的环境然后配置变量就可以了,但是呢有时候有些python包在windows中并不太好装,可能会遇到很多问题。anaconda集成了很多python包,对于爬虫,机器学习都是最好的选择。下面我介绍一下windows中如何安装配置anaconda。首先下载anaconda。anaconda有python2和python3两个版本,这两个版本...

2019-04-26 15:24:46 307

django课件.rar

黑马django课件,包含django入门,模型,视图,模板,常用等几大板块,里面富含案例代码。浅显易懂,非常适合django学习

2019-07-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除