- 博客(64)
- 收藏
- 关注
原创 解决用pandas读取excel的编码问题(unknowncodepage21010)
解决用pandas读取excel的编码问题(unknowncodepage21010)前言首先报错会提示 以下信息: unknown encoding: unknown_codepage_21010查寻好久,最后在git上发布的一篇文章,解决思路是直接明确将编码设置好,git链接:https://github.com/okfn/messytables/issues/47具体操作找到xlrd的__init__.py文件,在 open_workbook 模块中将encoding_override
2021-07-30 13:46:11 1540
原创 centos7下安装 Chrome和ChromeDriver
具体下载地址为:http://dl.google.com/linux/chrome/rpm/stable/x86_64//google-chrome-stable-66.0.3359.181-1.x86_64.rpm在centos命令行输入:[root@VM_0_8_centos local]# wget http://dl.google.com/linux/chrome/rpm/s...
2019-12-13 11:34:06 627
原创 MySQL报错 : Your password does not satisfy the current policy requirements
mysql> use mysql;Reading table information for completion of table and column namesYou can turn off this feature to get a quicker startup with -ADatabase changedmysql> create user 'yaoyon...
2019-11-25 13:20:50 393
原创 python 计算两个时间段的时间查。
前言: python 提供时间模块datetime,此处也是用的datetime做的测试,主要用到datetime下的时间差函数 timedelta。 如果有人问你昨天是几号,这个很容易就回答出来了。但是如果问你200天前是几号,就不是那么容易了。而在Python中datetime模块中的timedelta就可以很轻松给出答案。 timedelta 介绍:...
2019-10-23 09:47:27 2551
原创 分布式任务队列Celery 的应用
一、简介Celery是由Python开发、简单、灵活、可靠的分布式任务队列,其本质就是生产者与消费者模型 。 生产者发送任务到消息队列,消费者负责处理任务。 Celery侧重于实时操作,但对调度支持也很好,其每天可以处理数以百万计的任务。 Celery 分布式队列的特点:简单:熟悉celery的工作流程后,配置使用简单 高可用:当任务执行失败或执行过程中发生连...
2019-10-12 14:19:49 334
原创 centos 下mysql 添加用户(配置建库权限)
前提:本文需要Mysql的root用户操作,如果忘记密码,可以参考:本博主的mysql密码修改博客。 mysql密码修改博客链接:https://blog.csdn.net/weixin_42170439/article/details/102486126。1.查看当前的用户// 进入mysql服务会有一个mysql的库,查询该库下的user表,查询字段 Host,User .s...
2019-10-12 11:25:18 1247
原创 Centos Mysql 密码的修改
个人环境mysql5.7.16 centos7.41. 修改mysql配置文件编辑配置文件vim /etc/my.cnf按i在[mysqld]中添加skip-grant-tables,即跳过权限认证skip-grant-tables按esc后输入:wq保存退出2. 重启mysql输入命令重启service mysqld restart3....
2019-10-10 17:04:19 183
原创 centos 服务器在连接redis数据库报错:MISCONF Redis is configured to save RDB snapshots
centos 连接redis报错问题: 1. 报错信息 centos7服务器——连接redis数据库时突然报错:(error) MISCONF Redis is configured to save RDB snapshots, but it is currently not able to persist on disk. Commands that may modi...
2019-09-23 15:40:22 156
原创 kill 和killall----杀死进程
kill 和killall----杀死进程1、根据进程ip查看进程名Liunx中 通过进程名查找进程PID可以通过 pidof [进程名] 来查找。反过来 ,通过PID查找进程名则没有相关命令。但在linux根目录中,有一个/proc的VFS(虚拟文件系统),系统当前运行的所有进程都对应于该目录下的一个 以进程PID命名的文件夹 ,其中存放进程运行的N多信息。其中有一个stat...
2019-09-18 16:56:36 277
原创 Linux—Docker下安装Chrome浏览器和ChromeDriver
Linux—Docker下安装Chrome浏览器和ChromeDriver1.首先检查linux的os版本:2.升级版本7.2后:在6.2版本安装2.44版本的chromedriver和最新71版本(google-chrome-stable-71.0.3578.80-1.x86_64)的chrome浏览器会报错,比如报GLIBC 2.14和2.16版...
2019-09-17 15:22:41 21806 4
原创 Python 中文分词模块 JieBa
Python第三方库jieba(中文分词)入门与进阶(官方文档)jieba“结巴”中文分词:做最好的 Python 中文分词组件github:https://github.com/fxsjy/jieba特点 支持三种分词模式: 精确模式,试图将句子最精确地切开,适合文本分析; 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义; ...
2019-09-06 09:44:32 975 1
原创 Linux_centos 3.10.0-514.26.2.el7.x86_64(centos7)报错:yum无法安装
Linux_centos 3.10.0-514.26.2.el7.x86_64(centos7)报错:yum list 正常,yum 安装无法使用的解决方法一、出错情况(1)yum list可以查出数来,证明ISO系统镜像是关联了的且挂载成功:yum list(2)yum repolist显示仓库的时候是0:yum repolist(3)总结原因...
2019-08-31 17:40:01 3593
原创 scrapyd部署总结
scrapyd部署总结版权声明:本文为博主原创文章,转载请标明原文https://blog.csdn.net/weixin_42170439/article/details/89352917 #commentBox。一、前言 由于毕设要做一个集成爬虫、文本分析和可视化的网站。需要将爬虫部署到网站上去供不懂技术的人使用。因此开始了研 究 sc...
2019-08-28 18:45:00 206
原创 ECS 服务器centos上搭建Docker
ECS 服务器centos上搭建Docker主要内容本文主要介绍以下内容:部署Docker 使用Docker 制作镜像部署Docker本教程的操作系统版本为CentOS 7.2 64 3.10.0-514.6.2.el7.x86_64。说明Docker要求64位的系统且内核版本至少为3.10。完成以下操作,部署Docker:添加yum源。 # y...
2019-08-24 18:40:54 149
原创 Docker安装以及原理详解
Docker安装以及原理详解1. docker简介1.1虚拟化1.1.1什么是虚拟化在计算机中,虚拟化(英语:Virtualization)是一种资源管理技术,是将计算机的各种实体资源,如服务器、网络、内存及存储等,予以抽象、转换后呈现出来,打破实体结构间的不可切割的障碍,使用户可以比原本的组态更好的方式来应用这些资源。这些资源的新虚拟部份是不受现有资源的架设方式,地域或物理组态所...
2019-08-21 17:28:39 164
原创 Gerapy框架的安装使用
Gerapy框架的安装使用一,gerapy框架Gerapy 是一款分布式爬虫管理框架,支持 Python 3,基于 Scrapy、Scrapyd、Scrapyd-Client、Scrapy-Redis、Scrapyd-API、Scrapy-Splash、Jinjia2、Django、Vue.js 开发,Gerapy 可以帮助我们:更方便地控制爬虫运行 更直观地查看爬虫状态 更...
2019-08-21 12:52:13 301
原创 python操作kafka实战教程和kafka配置文件
python操作kafka实战教程和kafka配置文件前言应用往Kafka写数据的原因有很多:用户行为分析、日志存储、异步通信等应用。 多样化的使用场景带来了多样化的需求:消息是否能丢失?是否容忍重复?消息的吞吐量?消息的延迟?kafka介绍Kafka属于Apache(阿帕奇服务器)组织,是一个高性能、跨语言、分布式发布和订阅消息队列系统。Kafka主要特点有:以时间...
2019-07-16 14:17:10 999
原创 Kafka入门简介
Kafka入门简介什么是Kafka?Kafka是一个分布式流处理系统,流处理系统使它可以像消息队列一样publish(发布)或者subscribe(订阅)消息,分布式提供了容错性,并发处理消息的机制。Kafka的基本概念?kafka运行在集群上,集群包含一个或多个服务器。 kafka把消息存在topic中,每一条消息包含键值(key),值(value)和时间戳(time...
2019-07-16 11:55:51 229
原创 Python编程中使用Pillow来处理图像的基础教程
Python编程中使用Pillow来处理图像的基础教程一、Pillow图片处理模块的安装先来看一下Pillow的安装方法,在这里以Mac OS环境为例:1、使用 pip 安装 Python 库。pip 是 Python 的包管理工具,安装后就可以直接在命令行一站式地安装/管理各种库了(pip 文档)。$ wget http://pypi.python.org/package...
2019-07-12 17:18:23 486
原创 python面试 常见算法问题
一、递归和时间复杂度1.递归递归函数的特点:自己调用自己,有结束条件,看下面例子:# -*- coding:utf-8 -*-# 算法和递归def fun1(x): """有结束条件,没有报错信息""" print(x) if x>0: fun1(x-1)fun1(7)print("\n")# 输出分隔符def fun2(...
2019-07-08 10:45:45 1029 1
原创 Python网络编程
Python网络编程概述网络中的术语解释名称 解释 那一层 说明 端口号 程序地址 传输层 区分同一计算机中不同的程序 IP地址 主机地址 网络层 识别不同的主机或者路由器 MAC地址 物理地址 数据链路层 在同一数据链路中识别不同的计算机 TCP 基于字节流协议 传输层 面向连...
2019-06-29 16:25:07 305
原创 15行代码轻松绕过淘宝反爬虫机制
15行代码轻松绕过淘宝反爬虫机制2019年04月18日 16:09:44MarDino阅读数 769最近学习网络爬虫关注了不少技术大牛,前两天看见崔庆才老师公众号发了一个绕过淘宝验证的新方法,今天我就按照那篇文章进行实践之前大牛们写的文章进行淘宝抓取都是使用selenium但我自己使用的时候经常出错封IP,对于淘宝这类文章也很苦恼而崔大介绍一款新工具——pyppeteer这也...
2019-06-25 20:52:37 6136
原创 【python】利用Pandas进行数据预处理
【python】利用Pandas进行数据预处理1.Pandas简介 Pandas(Python Data Analysis Library )是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现...
2019-06-21 19:00:02 1175
原创 验证码破解:极验3.0滑动验证码
验证码破解:极验3.0滑动验证码破解最新俩种方法特点:对于极验验证码3.0版本,我们首先点击按钮进行智能验证。如果验证不通过,则会弹出滑动的验证的窗口,拖动滑块拼合图像进行验证。之后三个加密参数会生成,通过表单提交到后台,后台还会进行一次验证。极滑2.0的破解思路:模拟点击验证按钮 直接用Selenium模拟点击按钮 识别滑动缺口的位置 利用原图和缺口图对比检测方式来识别...
2019-06-20 11:56:13 2540 3
原创 Python脚本破解图形验证码(tesserocr和pytesseract)
Python脚本破解图形验证码(tesserocr和pytesseract)一、tesserocr和pytesseract的介绍OCR 《Optical Character Recognition 》光学字符识别,是指通过扫描字符,然后通过其形状将其翻译成电子文本的过程。tesseract是一个OCR,在Windows、Linux和Mac OS下均可安装。te...
2019-06-17 16:36:49 1464
原创 移动端爬虫工具与方法介绍
移动端爬虫工具与方法介绍一、抓包模拟基本原理(中间人攻击)中间人攻击:在中间人攻击中,攻击主机通常截断客户端和服务器的加密通信。攻击机以自己的证书替代服务器发给客户端的证书。通常,客户端不会验证该证书,直接接受该证书,从而建立起和攻击机的安全连接。这样,客户端发送的数据,都会被攻击机获取和解密。工具介绍 Fiddler charles anyproxy...
2019-06-15 08:26:56 309
原创 利用pytesser识别简单图形验证码
Python验证码识别:利用pytesser识别简单图形验证码一、探讨图形通常由点、线、面、体等几何元素和灰度、色彩、线型、线宽等非几何属性组成。计算机涉及到的几何图形处理一般有 2维到n维图形处理,边界区分,面积计算,体积计算,扭曲变形校正。对于颜色则有色彩空间的计算与转换,图形上色,阴影,色差处理等等。在破解验证码中需要用到的知识一般是 像素,线,面等基本2维...
2019-06-12 21:25:19 157
原创 Python第三方模块tesserocr安装
Python第三方模块tesserocr安装介绍在爬虫过程中,难免会遇到各种各样的验证码,而大多数验证码还是图形验证码,这时候我们可以直接用 OCR 来识别。tesserocr是 Python 的一个 OCR 识别库 ,但其实是对 tesseract 做的一 层 Python API 封装,所以它的核心是 tesseract。 因此,在安装 tesserocr 之前,我们需要先...
2019-06-11 16:19:33 205
原创 SnowNLP 简体中文文本处理
SnowNLP: 简体中文文本处理SnowNLP是一个python写的类库,可以方便的处理中文文本内容,是受到了TextBlob的启发而写的,由于现在大部分的自然语言处理库基本都是针对英文的,于是写了一个方便处理中文的类库,并且和TextBlob不同的是,这里没有用NLTK,所有的算法都是自己实现的,并且自带了一些训练好的字典。注意本程序都是处理的unicode编码,所以使用时请自行decod...
2019-06-09 15:05:08 736
原创 MySQL数据库优化的八种方式
MySQL数据库优化的八种方式引言:关于数据库优化,网上有不少资料和方法,但是不少质量参差不齐,有些总结的不够到位,内容冗杂 。 偶尔发现了这篇文章,总结得很经典,文章流量也很大,所以拿到自己的总结文集中,积累优质文章,提升个人能力,希望对大家今后开发中也有帮助 。 据D.V.B 团队以及Cmshelp 团队做CMS 系统评测时的结果来看,MySQL单表大约在2千万条记录(4...
2019-06-08 13:23:41 184
原创 MySQL 事务(Transaction)详解
MySQL——事务(Transaction)详解一、事务定义Transaction 事务:一个最小的不可再分的工作单元;通常一个事务对应一个完整的业务(例如银行账户转账业务,该业务就是一个最小的工作单元) 一个完整的业务需要批量的DML(insert、update、delete)语句共同联合完成 事务只和DML语句有关,或者说DML语句才有事务。这个和业务逻辑有关,业务逻辑不同...
2019-06-05 14:19:46 285
原创 MYSQL数据库引擎区
MYSQL数据库引擎区别详解数据库引擎介绍MySQL数据库引擎取决于MySQL在安装的时候是如何被编译的。 要添加一个新的引擎,就必须重新编译MYSQL。在缺省情况下, MYSQL支持三个引擎:ISAM、MYISAM和HEAP。 另外两种类型INNODB和BERKLEY(BDB),也常常可以使用。(bklke) 如果技术高超,还可以使用MySQL+API自己做一个...
2019-06-05 14:05:44 132
原创 Redis主从同步
Redis系列之(二):Redis主从同步,读写分离1. Redis主从同步Redis支持主从同步。数据可以从主服务器向任意数量的从服务器上同步,同步使用的是发布/订阅机制。2. 配置主从同步Mater Slave的模式,从Slave向Master发起SYNC命令。可以是1 Master 多Slave,可以分层,Slave下可以再接Slave,可扩展成树状结构。2.1...
2019-06-04 11:29:26 167
原创 scrapy和scrapy-redis有什么区别?为什么选择redis数据库?
scrapy和scrapy-redis有什么区别?为什么选择redis数据库?一、主要区别scrapy是一个Python爬虫框架,爬取效率极高,具有高度定制性,但是不支持分布式。 scrapy-redis一套基于redis数据库、运行在scrapy框架之上的组件,可以让scrapy支持分布式策略,Slaver端共享Master端redis数据库里的item队列、请求队列和请求指纹集...
2019-06-03 10:56:39 2360
原创 大众点评热门餐厅抓取与数据分析
大众点评热门餐厅抓取与数据分析大众点评抓取与分析 背景 有没有一种去其他城市旅游的时候想吃地方特色,但是却又不知道到该去哪里吃的感觉呢?反正我是有这种感觉,尤其是不想去其他城市却在泡面中度过,无法感受当地的美食特色,因此对大众点评热门城市热门店铺进行了数据获取,然后对想去的城市的网红店铺大众评分及各项指标进行了获取与分析。 页面分析 分析条目 ...
2019-06-02 21:48:41 3513 1
原创 在Python中使用OpenCV进行人脸检测
在Python中使用OpenCV进行人脸检测opencv介绍 OpenCV是如今最流行的计算机视觉库,学习目标我们今天就是要学习如何安装使用OpenCV 。 如何去访问我们的摄像头 。 我们一起来写一个人脸检测程序是如何地简单,简单到只需要几行代码 。安装opencv1. 我们需要先准备好这些环境(版本记得配好):Python 2.x OpenCV...
2019-05-31 21:24:32 588 1
原创 欢迎来到PyPy
主页|什么是PyPy?|下载|兼容性|表现|开发文档|博客|人民|联系欢迎来到PyPyPyPy是Python语言的快速,兼容的替代实现(2.7.13和3.5.3,3.6)。它有几个优点和独特的功能: 速度:由于它的Just-in-Time编译器,Python程序通常在PyPy上运行得更快。(什么是JIT编译器?) “如果你希望你的代码运行得...
2019-05-30 21:29:57 490
原创 Python解释器的介绍
Python解释器阅读: 3743558当我们编写Python代码时,我们得到的是一个包含Python代码的以.py为扩展名的文本文件。要运行代码,就需要Python解释器去执行.py文件。由于整个Python语言从规范到解释器都是开源的,所以理论上,只要水平够高,任何人都可以编写Python解释器来执行Python代码(当然难度很大)。事实上,确实存在多种Python解释器。CP...
2019-05-30 21:13:50 229
原创 Python 图形化界面设计
Python 图形化界面设计1、图形化界面设计的基本理解当前流行的计算机桌面应用程序大多数为图形化用户界面(Graphic User Interface,GUI),即通过鼠标对菜单、按钮等图形化元素触发指令,并从标签、对话框等图型化显示容器中获取人机对话信息。Python自带了tkinter 模块,实质上是一种流行的面向对象的GUI工具包 TK 的Python编程接口,提供了快速便...
2019-05-30 21:06:34 15264 2
原创 OpenCV 视觉类库的安装
向您介绍OpenCV的世界。 在Linux中安装 兼容性:> OpenCV 2.0 作者:AnaHuamán 我们将学习如何在您的计算机中设置OpenCV! 使用OpenCV与gcc和CMake 兼容性:> OpenCV 2.0 作者:AnaHuamán 我们将学习如何使用gcc和CMake编译您的第一个项目 在...
2019-05-30 11:23:17 243
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人