自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 scrapy-redis分布式爬虫案例(房天下)

运行效果动图: 简述:本案例中有一台Linux系统运行Redis服务器,两台Windows系统跑分布式爬虫。爬虫从Redis队列中得到要爬取的URL,同时redis负责队列中URL的去重以及爬虫因某些原因暂停或者终止时,下次开启爬虫自动继续上次未完成的URL继续爬取,不会重头开始爬,当爬虫爬...

2019-09-29 10:19:33

阅读数 15

评论数 0

原创 12306抢票爬虫selenium+Chromedriver(升级版)

先看代码执行结果: 此爬虫是对之前版本爬虫(网络上大部分博客的版本)的修改和调整,具体具体流程如下: 运行程序时,输入出发地,目的地和出发城市。 若是学生,则选择学生票,学生身份需要通过12306网站验证。 登录完成之后,自动跳转到查询车次页面,这样做是想先让购票者比较各个车次信息之后...

2019-08-28 18:03:41

阅读数 170

评论数 12

原创 12306抢票爬虫selenium+Chromedriver(需手动完成支付)

先看动态结果:只能到预定锁定车票,30分钟内手动付款,车票会被自动取消。 如果是暂无余票,就会一直查询余票信息,直到有余票时,自动预定,比如G7暂无余票,为了防止反爬虫,设置的刷票间隔时间长一点,这样更安全。 使用selenium+chromedriver工具,自动查询余...

2019-08-16 18:09:40

阅读数 429

评论数 2

原创 weblogic server集群安装超级详细图文并茂(图形界面模式)

PS:以下内容由笔者在学习和工作中的记录和总结,如有错误欢迎指正,技术交流企鹅号:260228941。 关于weblogic server集群概念和关系,参考:https://blog.csdn.net/u013413740/article/details/97238635 部署环境如下: ...

2019-07-22 18:19:12

阅读数 272

评论数 0

原创 Django项目中执行migrate迁移脚本时报错及解决方法

一、python manage.py startapp appname 创建一个app 二、python manage.py make migration 将模型生成迁移脚本 1.模型所在的app,必须在settings的INSTALLED_APPS下,否则报错。 2.python ...

2019-10-17 17:05:34

阅读数 16

评论数 0

原创 python(Django)项目中如何安装虚拟环境(virtualenvwrapper)

安装virtualenvwrapper(Windows系统) windows: pip install virtualenvwrapper-win 创建虚拟环境:mkvirtualenv django_env 创建完成后自动进入到该虚拟环境中,默认路径是在C盘当前用户下的Envs内。 进入 /...

2019-10-10 11:41:02

阅读数 12

评论数 0

原创 如何将scrapy项目转换成scrapy-redis分布式爬虫

将爬虫继承的类从 scrapy.Spider 变成 scrapy_redis.spiders.RedisSpider(或者先import (from scrapy_redis.spiders import RedisSpider));或者是从 scrapy.CrawlSpider 变成 scrap...

2019-09-23 10:29:30

阅读数 17

评论数 0

原创 Ubuntu安装Scrapy

首先需要安装依赖包如下:sudo apt-get install python3-dev build-essential python3-piplibxml2-devlibxslt1-devzlib1g-dev libffi-dev libssl-dev 安装scrapy pip install...

2019-09-20 14:32:58

阅读数 72

评论数 0

原创 Pycharm中为python程序添加依赖包

导出该python程序所依赖的第三方包的列表:pip freeze > requirements.txt 将requirements.txt拷贝到需要运行该python程序的机器上,执行pip install -r requirements.txt 即可安装程序所依赖的包。 ...

2019-09-20 11:11:22

阅读数 212

评论数 0

原创 Python爬虫常见报错及解决办法

报错:AttributeError: 'NoneType' object has no attribute 'strip' 检查是否是单词拼写错误。 检查是否是str类型 检查返回结果是否有空值,使用strip()前可以先判断是否为空,如下: na...

2019-09-17 17:13:43

阅读数 369

评论数 4

原创 redis相关操作

字符串操作 设置和获取字符串 set username name / get username 设置和查看过期时间 set age 20 EX 60(expire age 60单独设置过期时间) / ttl age 一旦过期,会被自动删除。 查看所有的keys: keys * 列表操作 (有...

2019-09-12 14:58:46

阅读数 10

评论数 0

原创 redis安装

下载地址:https://github.com/microsoftarchive/redis/releases 安装完成后,切换到安装目录: 执行redis-server.exe redis.windows.conf 启动server端。如果报错:Creating Server TCP lis...

2019-09-11 17:56:17

阅读数 18

评论数 0

原创 python 遍历select下拉框,获取option标签中value和text的值

在写12306爬虫时,遇到选择座席信息时,需要遍历select下拉框获取其中的座席信息。 代码如下: seat_types = self.driver.find_element_by_xpath('.//select[starts-with(@id,"sea...

2019-08-28 09:10:30

阅读数 30

评论数 0

原创 pycharm下设置项目默认信息模板

在Pycharm中 File——settings(Ctrl + Alt + S) 快速搜索:File and Code Templates ——Python Script,在右侧根据自己需要输入内容。 最后Apply——OK即可。结果如下图: ...

2019-08-23 11:13:20

阅读数 109

评论数 0

原创 如何使用pycharm将.py文件转换成.exe文件

安装pyinstaller(首次使用)。打开终端(Alt+F12),输入:pip install pyinstaller。步骤如下图。 安装完成后继续中输入:“pyinstaller -F -w 文件名.py” 就可以制作出exe,生成的可执行文件位于和源文件同目录的dist文件中...

2019-08-23 11:00:45

阅读数 64

评论数 0

原创 re正则表达式常用匹配规则

整理常用的re函数和匹配规则,便于查找。 re模块中常用函数: match:从字符串开始位置进行匹配; search:在字符串中查找匹配; findall:找出所有符合条件的,是一个列表; sub:用来替换字符串; split:分割字符串; compile:编译表达式; group...

2019-08-13 15:40:21

阅读数 235

评论数 0

原创 爬虫爬取BOSS直聘(selenium+Chromedriver)

今天介绍借助selenium+chromdriver工具进行爬取招聘信息,并保持到csv文件中,以招聘python岗位为关键字。 爬取思路可分为以下几个步骤: 爬取第一页页面中所有职位的链接:每个职位有个id。 然后根据获取的每个职位的链接,获取该职位的详细信息。 右键——...

2019-08-12 11:35:30

阅读数 206

评论数 0

原创 爬虫爬取拉勾招聘信息(selenium+Chromedriver)

之前使用requests库爬取拉勾网站招聘信息时,老是出现访问频繁或者因检测到存在爬虫行为被禁止访问。从开始学习爬虫到工作,爬取过一些网站。拉勾算是反爬虫措施做的最变态的,没有之一。 为了获取获取更加完整的数据信息,今天介绍使用selenium+chromdriver,借助工具进行爬取,以招聘p...

2019-08-06 18:23:45

阅读数 64

评论数 0

原创 爬虫之动态网页爬取Selenium+Chromedriver

安装Selenium。 pip install selenium 下载Chromedriver(根据浏览器版本下载,相应版本https://sites.google.com/a/chromium.org/chromedriver/downloads),不需要双击安装。 测试是否安装成功(路径是...

2019-08-01 17:03:40

阅读数 99

评论数 0

原创 Linux之vi/vim命令常用操作

显示行号(:set nu显示,:set nonu 取消显示) 定位到某一行(:行号) 复制整行 (yy复制,p粘贴) 服务多行(按下v,移动光标选取要复制的内容,按y复制,移到光标到要粘贴的地方,p粘贴)。 u撤销上次操作。 待更新…… ...

2019-08-01 10:51:27

阅读数 16

评论数 0

原创 weblogic server集群之配置节点管理器(Node Manager)

为什么要配置节点管理器呢? 节点管理的作用是让我们可以远程的管理集群中的服务器(开启,关闭以及重启服务器)。 举个简单的例子,如上图,有一个管理服务器和三个受管理服务器,如果您的应用程序及资源被部署在了不同主机的服务器上,当您要升级的应用包部署到管理服务器后,需要重启每个受管理服务器来获取...

2019-07-26 18:06:24

阅读数 117

评论数 0

翻译 weblogic server集群理论知识总结

更多相关内容,请参考官方文档:https://docs.oracle.com/cd/E12840_01/wls/docs103/index.html weblogic server集群中几个要了解的概念: 集群拓扑结构如下:(笔者所理解的) Domain(域) Admini...

2019-07-25 09:55:59

阅读数 100

评论数 0

原创 weblogic server集群无界面安装(命令行模式)

PS:以下内容由笔者在学习和工作中的记录和总结,如有错误欢迎指正,技术交流企鹅号:260228941。 关于weblogic server集群概念和关系,参考:https://blog.csdn.net/u013413740/article/details/97238635 部署环境如下: ...

2019-07-23 11:16:08

阅读数 126

评论数 0

原创 Linux配置Java环境

https://www.oracle.com/technetwork/java/javase/downloads/index-jsp-138363.html 到官网下载相应版本的JDK。 新建jdk文件夹(mkdir jdk),并把下载的JDK放到该目录并解压(tar -xvzf ),解压后生成...

2019-07-22 15:30:33

阅读数 165

评论数 0

原创 weblogic server集群中常见报错解决办法(亲试有效)

1.集群中服务器启动时报错信息如下: <An error occurred while sending multicast message: java.net.SocketException: sendto failed: Invalid argument java.net.SocketEx...

2019-07-19 15:44:29

阅读数 292

评论数 0

提示
确定要删除当前文章?
取消 删除