python
文章平均质量分 68
天痕坤
这个作者很懒,什么都没留下…
展开
-
pyqt5与ftp结合实现上传下载功能
1.只用ftp实现上传下载功能from ftplib import FTPimport osclass MyFTP: def __init__(self): '''ftp服务器主机IP,端口等配置''' self.ftp_host = "***.**.**.***" self.ftp_port = 21 self.ftp_user = '***' self.ftp_passwd = '***'原创 2022-02-08 16:47:29 · 1788 阅读 · 0 评论 -
Matplotlib制作动画
由于效果gif太大,无法效果图太大,无法上传,可自行运行demo1:移动的sin曲线import numpy as npfrom matplotlib import pyplot as pltfrom matplotlib.animation import FuncAnimationplt.style.use('seaborn-pastel') fig = plt.figure()ax = plt.axes(xlim=(0, 4), ylim=(-2, 2))line, = a.原创 2020-09-09 11:42:45 · 2105 阅读 · 0 评论 -
python调用matlab函数(windows环境)
一、先安装Anaconda(Anaconda3-5.2.0-Windows-x86_64对应py3.6)matlab版本以及python版本要求:上篇安装的Matlab版本是2018b(安装教程链接),该引擎支持 Python 版本 2.7、3.5 和 3.6。狂点下一步,比较简单,不说了,跳过二、配置环境要安装引擎 API,请在操作系统提示符下执行以下命令,其中matlabro...原创 2019-10-14 16:50:49 · 1337 阅读 · 0 评论 -
pycharm和mongodb的交互
首先引入包: pip install pymongo需要用到如下对象: MongoClient对象:用于与MongoDB服务器建立连接 client=MongoClient('主机ip',端口) DataBase对象:对应着MongoDB中的数据库 db=client.数据库名称 Collection对象:对应着MongoDB中的集合 ...原创 2018-05-30 16:38:47 · 7261 阅读 · 2 评论 -
Ubuntu16.04下设置静态IP
最近在自己装有win7系统的thinkpad电脑上,给安装了Ubuntu16.04双系统。想在ubuntu下配置一个hadoop伪分布式,最首要的就是要给系统配置一个静态IP .一开始我按照网上的步骤进行配置静态IP,方法如下 :1、vi /etc/network/interfaces添加内容:auto eth0iface eth0 inet staticaddress 192.168.8.100...原创 2018-05-30 19:15:26 · 219 阅读 · 0 评论 -
Python入门&进阶资料整合
一、对于没有编程基础的朋友,可以选择下面的教程:Crossin的编程教室论坛Crossin老师也有微信版的教程,可以在手机上学习:Crossin的编程教室WeChat版本公众号:crossincode二、对于有编程基础的朋友,则可以选择:廖雪峰的Python教程前面两个我都学习过,觉得两个老师讲得都不错三、其他前辈已经整理好的python资源(包含进阶资源):1.分分钟学会一门语言之Python篇...原创 2018-05-30 22:29:16 · 463 阅读 · 0 评论 -
关于分布式爬虫思考
爬虫无非两样东西网站的破解爬取的效率由于我很懒,爬虫就随便写写怼上服务器上跑就行了,从来不考虑效率的问题,所以用到分布式的情况很少。不过也有用到的时候,之前爬个youtube,除了爬取视频信息又要下载视频又要上传视频,还要下载缩略图上传缩略图。如果只用一个爬虫去做的话,其实也没什么,就是会失业而已。然后我就开始尝试去做分布式。我从网上看到的大部分分布式教程,都是用redis来储存任务队列,然后开启...原创 2018-06-15 16:24:48 · 1442 阅读 · 0 评论 -
强大的异步爬虫 with aiohttp
看到现在网络上大多讲的都是requests、scrapy,却没有说到爬虫中的神器:aiohttpaiohttp 介绍aiohttp是什么,官网上有这样一句话介绍:Async HTTP client/server for asyncio and Python,翻译过来就是 asyncio和Python的异步HTTP客户端/服务器主要特点是:支持客户端和HTTP服务器。无需使用Callback Hel...原创 2018-06-13 21:20:28 · 7157 阅读 · 3 评论 -
TensorFlow验证码识别
本节我们来用 TensorFlow 来实现一个深度学习模型,用来实现验证码识别的过程,这里我们识别的验证码是图形验证码,首先我们会用标注好的数据来训练一个模型,然后再用模型来实现这个验证码的识别。验证码首先我们来看下验证码是怎样的,这里我们使用 Python 的 captcha 库来生成即可,这个库默认是没有安装的,所以这里我们需要先安装这个库,另外我们还需要安装 pillow 库,使用 pip3...原创 2018-06-12 21:41:31 · 2015 阅读 · 0 评论 -
爬虫之哔哩哔哩女神篇
#!/usr/bin/python# -*- coding: utf-8 -*-import reimport requests''' 分析: 1. 爬取流程 地址:https://search.bilibili.com/all?keyword=%E5%A5%B3%E7%A5%9E%E7%AF%87&from_source=banner_search&page=3...原创 2018-05-29 23:12:14 · 1077 阅读 · 0 评论 -
爬虫之百度翻译汉英
import jsonimport requestsurl = 'http://fanyi.baidu.com/basetrans'query = input("请输入要翻译的内容:")post_data = { 'query': query, 'from': 'zh', 'to': 'en',}headers = { 'User-Agent': 'Mozilla/5.0 ...原创 2018-05-24 17:17:06 · 309 阅读 · 1 评论 -
urlopen error和SSLError: 报错[SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed
在使用requests或者urllib访问某网站时,提示如下错误,Python版本为3.6。requests.exceptions.SSLError: [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed (_ssl.c:645)或者 urllib.error.URLError: <urlopen error [SSL: CER...原创 2018-05-24 13:33:12 · 7097 阅读 · 0 评论 -
Python操作MongoDB
MongoDB是由C++语言编写的非关系型数据库,是一个基于分布式文件存储的开源数据库系统,其内容存储形式类似JSON对象,它的字段值可以包含其他文档、数组及文档数组,非常灵活。在这一节中,我们就来看看Python 3下MongoDB的存储操作。1. 准备工作在开始之前,请确保已经安装好了MongoDB并启动了其服务,并且安装好了Python的PyMongo库。2. 连接MongoDB连接Mong...原创 2018-06-11 20:43:55 · 513 阅读 · 0 评论 -
爬虫之钉子电影
#!/usr/bin/python# -*- coding: utf-8 -*-''' 分析: 1. 爬取流程 地址:http://www.dingziys.com/movie/list.html?year=2018&cate=0&country=&rating=0&page=7&per-page=24 方式:get 参数: ...原创 2018-05-29 08:28:48 · 5075 阅读 · 0 评论 -
爬虫之拉菲红酒评价
# coding:utf-8import reimport requests''' 分析: 1. 爬取流程 # 法国拉菲酒的评价 url:https://rate.tmall.com/list_detail_rate.htm?itemId=566515357894&spuId=946656746&sellerId=2807304908&order=3...原创 2018-06-11 17:30:50 · 552 阅读 · 0 评论 -
爬虫定时任务crontab
1. crontab的安装和介绍2. crontab在爬虫中的使用2.1 使用流程把爬虫启动命令写入sh文件给sh脚本添加可执行权限把sh添加到crontab脚本正2.2 myspier.sh例子先把要执行的命令写入脚本cd `dirname $0` || exit 1python ./main.py >> run.log 2>&1其中>>表示重定向,把p...原创 2018-06-07 22:38:06 · 1030 阅读 · 0 评论 -
玩转wordcloud
版权声明:本文为博主原创文章,未经博主允许不得转载。https://blog.csdn.net/kun1280437633/article/details/89474284摘要:当我们手中有一篇文档,比如书籍、小说、电影剧本,若想快速了解其主要内容是什么,则可以采用绘制 WordCloud 词云图,显示主要的关键词(高频词)这种方式,非常方便。本文将介绍常见的英文和中文文本的词云图绘制,以...原创 2019-04-23 15:49:10 · 63601 阅读 · 16 评论 -
Matplotlib画各种图
matplotlib(条形图)看本文前,请看matlplotlib使用教程https://blog.csdn.net/kun1280437633/article/details/80370622,有基础请忽略一、简单垂直条形图案例一:直辖市GDP水平中国的四个直辖市分别为北京市、上海市、天津市和重庆市,其2017年上半年的GDP分别为12406.8亿、13908.57亿、9...原创 2018-06-28 13:24:54 · 23347 阅读 · 6 评论 -
付费代理池的使用
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/kun1280437633/article/details/80830033相对免费代理来说,付费代理的稳定性更高。本节将介绍爬虫付费代理的相关使用过程。一、付费代理分类付费代理分为两类: 一类提供接口获取海量代理,按天或者按量收费,如讯代理; 一类搭建了代理隧道,直接设置...原创 2018-06-27 15:37:29 · 5467 阅读 · 2 评论 -
用Flask+Aiohttp+Redis维护动态代理池
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/kun1280437633/article/details/80829848在网上有大量公开的免费代理,或者我们也可以购买付费的代理IP,但是代理不论是免费的还是付费的,都不能保证都是可用的,因为可能此IP被其他人使用来爬取同样的目标站点而被封禁,或者代理服务器突然发生故障或网络繁忙。一旦我们选用...原创 2018-06-27 15:26:53 · 3178 阅读 · 2 评论 -
Scrapy爬虫去重效率优化之Bloom Filter的算法的对接
首先回顾一下Scrapy-Redis的去重机制。Scrapy-Redis将Request的指纹存储到了Redis集合中,每个指纹的长度为40,例如27adcc2e8979cdee0c9cecbbe8bf8ff51edefb61就是一个指纹,它的每一位都是16进制数。我们计算一下用这种方式耗费的存储空间。每个十六进制数占用4 b,1个指纹用40个十六进制数表示,占用空间为20 B,1万个指纹即占用空...原创 2018-06-10 19:39:51 · 4301 阅读 · 1 评论 -
xpath和正则如何匹配后代所有的内容
demo:# coding:utf-8import refrom lxml import etreestr1='''<a style="font-weight: bold" par="ssidkey=y&amp;ss=201&amp;ff=03&amp;sg=61dddada6f3e4a62b688a786dac0a17f&amp;so=1" href="ht...原创 2018-06-10 18:46:17 · 1321 阅读 · 0 评论 -
python编码
1、字符集asciiISO-8859-1 通常叫 做Latin-1,向下兼容ASCII,此字符集支持部分于欧洲使用的语言GB2312/GBK 这就是汉字的国标码,专门用来表示汉字,是双字节编码,而英文字母和iso8859-1一致(兼容iso8859-1编码)。其中gbk编码能够用来同时表示繁体字和简体字,而gb2312只能表示简体字,gbk是兼容gb2312编码的。unicode 万国码2、Uni...原创 2018-06-10 12:44:23 · 251 阅读 · 0 评论 -
ASCII、unicode和UTF-8的起源
很久很久以前,有一群人,他们决定用8个可以开合的晶体管来组合成不同的状态,以表示世界上的万物。他们看到8个开关状态是好的,于是他们把这称为"字节"。再后来,他们又做了一些可以处理这些字节的机器,机器开动了,可以用字节来组合出很多状态,状态开始变来变去。他们看到这样是好的,于是它们就这机器称为"计算机"。开始计算机只在美国用。八位的字节一共可以组合出256(2的8次方)种不同的状态。他们把其中的编号...原创 2018-06-10 11:22:32 · 748 阅读 · 0 评论 -
jieba分词器
运行环境和模块安装运行环境:Python 3.X首先:cmd下 pip install jieba建议使用 pip3 install jieba (特别是那些同时装了Python2和3的朋友,以后装模块可以用pip2和pip3区分)安装完成后结巴分词模式结巴分词模块有三种分词模式:1.全模式2.精确模式3.搜索引擎模式全模式:把句子中所有可以成词的词语都扫描出来,速度非常快,但是不能解决歧义。 ...原创 2018-06-17 15:53:19 · 3017 阅读 · 0 评论 -
爬虫之有道翻译(逆向)
#!/usr/bin/python# -*- coding: utf-8 -*-import requestsimport hashlibimport timefrom pprint import pprinturl = "http://fanyi.youdao.com/translate_o"params = { "smartresult": "dict", "smartresult...原创 2018-06-09 23:21:20 · 845 阅读 · 0 评论 -
爬虫之淘宝洋酒
#CrowTaobaoPrice.pyimport requestsimport reclass TaobaoSpider: def getHTMLText(self,url): try: r = requests.get(url, timeout=30) r.raise_for_status() r.encod...原创 2018-05-31 20:33:23 · 341 阅读 · 0 评论 -
爬虫之内涵吧
#!/usr/bin/python# -*- coding: utf-8 -*-import randomimport refrom html.parser import HTMLParserimport requestsDEBUG = Falsefrom retrying import retry # 导入重试模块class NeihanpaSpider: def __init__(sel...原创 2018-05-27 22:48:11 · 387 阅读 · 0 评论 -
多任务之协程
迭代器迭代是访问集合元素的一种方式。迭代器是一个可以记住遍历的位置的对象。迭代器对象从集合的第一个元素开始访问,直到所有的元素被访问完结束。迭代器只能往前不会后退。1. 可迭代对象我们已经知道可以对list、tuple、str等类型的数据使用for...in...的循环语法从其中依次拿到数据进行使用,我们把这样的过程称为遍历,也叫迭代。我们把可以通过for...in...这类语句迭代读取一条数据供...原创 2018-05-16 20:25:35 · 256 阅读 · 0 评论 -
VI/VIM常用命令总结
1、进入vi的命令 :vi filename :打开或新建文件,并将光标置于第一行首vi +n filename :打开文件,并将光标置于第n行首vi + filename :打开文件,并将光标置于最后一行首vi +/pattern filename:打开文件,并将光标置于第一个与pattern匹配的串处vi -r filename :在上次正用vi编辑时发生系统崩溃,恢复filenamevi f...原创 2018-05-11 20:53:45 · 262 阅读 · 0 评论 -
Numpy的使用教程-2
版权声明:本文为博主原创文章,未经博主允许不得转载。https://blog.csdn.net/kun1280437633/article/details/80355988函数demo:import numpy as npb = np.arange(3)print (b)print (np.exp(b))print (np.sqrt(b))结果:[0 1 2]...原创 2018-05-17 21:16:23 · 276 阅读 · 0 评论 -
Numpy的使用教程-1
版权声明:本文为博主原创文章,未经博主允许不得转载。https://blog.csdn.net/kun1280437633/article/details/80353486demo:import numpyvector1 = numpy.array([5,46,3,2]) #一维数组vector2 = numpy.array([5,...原创 2018-05-17 19:41:25 · 273 阅读 · 0 评论 -
浅谈flask-4
1、数据库的迁移 在开发中如果一旦模型更改,也就意味着数据库中表的字段已经更改了,如果删掉数据库中所有的表有可能导致数据丢失.解决办法:使用数据库迁移。 迁移流程:依赖于两个扩展包Flask_migrate,Flask_script (1)生成版本记录文件 python xxxx.py db init (2)生成迁移脚本 python xxxx.py d...原创 2018-05-09 14:51:01 · 249 阅读 · 0 评论 -
浅谈flask-3
1、flask中提供了一些特殊的变量和方法,在不进行传递的情况下就可以在模板中直接使用 常见的变量和方法有: (1) request: 封装的是请求相关的参数 (2)session: 存储用户相关的数据 (3)config: 封装了app中的配置信息 (4)url_for( ): 反解析方法,通过函数找到路径 (5)get...原创 2018-05-09 11:20:05 · 475 阅读 · 0 评论 -
浅谈flask-2
1、response: 用来响应客户端的数据,返回的时候有两种形式指定: (1) 直接返回元祖的形式 a. 直接返回, 响应体 return "hello" b. 返回 响应体+状态码 return "hello", 999 c. 返回 响应体 + 状态码 + 响应头 (2) 第二种返回repo...原创 2018-05-08 23:34:29 · 467 阅读 · 0 评论 -
python中使用上下文管理器对数据库进行封装
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/kun1280437633/article/details/796569611、不用上下文管理器对数据库进行操作from pymysql import *def option_db(): # 1. 连接数据 # 创建Connection连接 conn = connect(host=...原创 2018-03-22 17:29:36 · 870 阅读 · 0 评论 -
python中==和is的区别
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/kun1280437633/article/details/795347391、测试a = [11,22,33]d = [11,22,33]b = aa == d # 结果是Truea is d # 结果是False a == b # 结果是Truea is b # 结果是Tr...原创 2018-03-12 23:21:46 · 227 阅读 · 0 评论 -
python中的元类
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/kun1280437633/article/details/796538211、什么是元类?创建类的东西: 2、type元类创建类(type("类名",(父亲,),{属性键,属性值})) (1)创建一个类有参数 (2)创建一个类带有静态方法(3)创建一个类带有类方法3、使用元类修改类(1...原创 2018-03-22 16:17:10 · 220 阅读 · 0 评论 -
浅谈python中的装饰器
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/kun1280437633/article/details/795202611、要想了解装饰器,首先要知道什么是闭包? 内部函数调用外部函数的变量 (闭包是完成一段功能时需要一个保持一个数据) 一个闭包就是你调用了一个函数A,这个函数A返回了一个函数B给你。这个返回的函数B就叫做闭包。闭包...原创 2018-03-11 21:54:46 · 407 阅读 · 0 评论 -
python中模块导入
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/kun1280437633/article/details/795104111、路径搜索 列表中的路径的先后顺序代表了python解释器在搜索模块时的先后顺序,如果程序查找到相同名字的有可能并不是我们所需要的,后面使我们需要的也不会执行到,所以有时候我们需要手动添加路径。 ...原创 2018-03-10 18:52:38 · 676 阅读 · 0 评论