python
梅雨琪
一只美丽认真的程序媛!
展开
-
【Python】自动生成requirements.txt
项目开发的时候,总是要搭建和部署环境,这时,就需要一个python第三方包的list,一般叫做requirements.txt。如果项目使用virtualenv环境,直接使用pip freeze即可,但是如果项目的依赖没有维护,就会很麻烦,这时我们就需要一个叫pipreqs的工具,可以帮助我们自动生成requirements.txt文件。使用pip freeze$ pip freeze &...转载 2019-07-15 18:03:04 · 1487 阅读 · 1 评论 -
Python requests 移除SSL认证,verify=False,取消控制台输出的InsecureRequestWarning警告
在Python3中使用以下代码报错:import requestsresponse = requests.get(url='', verify=False)错误代码如下:InsecureRequestWarning: Unverified HTTPS request is being made. Adding certificate verification is strongly ad...原创 2019-06-03 16:40:26 · 29794 阅读 · 0 评论 -
【Python】 unicode转中文 -- \u662f\u5cb8形式换为中文
汉字前面加个u就可以把汉字转换成unicode编码格式In [1]: s = u"学海无涯,回头是岸"In [2]: sOut[2]: u'\u5b66\u6d77\u65e0\u6daf\uff0c\u56de\u5934\u662f\u5cb8'In [3]: print(s)学海无涯,回头是岸1.在爬虫抓取网页信息时常需要将类似'\u82e6\u6d77\u65e0\u6daf...转载 2019-05-06 17:35:32 · 38225 阅读 · 0 评论 -
Python中正则匹配使用findall,捕获分组(xxx)和非捕获分组(?:xxx)的差异
下面是我在用findall匹配字符串时遇到的一个坑,分享出来供大家跳坑。例题:# 请匹配出以下字符串中所有的邮箱:str1 = "123@qq.comaaa@163.combbb@126.comasdf111@asdfcom"如图所示: 正则a和正则b两个式子匹配出来的结果是不同的。 那?: 的作用就是把捕获分组转变为非捕获分组。什么是捕获组和非捕获组呢?(qq|...原创 2018-07-19 16:48:43 · 20608 阅读 · 2 评论 -
【图文详解】Win10上,本地安装 scrapyd ,部署爬虫的每一步!
1、进入你写代码的python 环境中,准备下载scrapyd包2、安装scrapyd模块,命令: pip installscrapyd3、安装完成时会有Successfully的提示4、安装完成后,输入命令: scrapyd 启动服务5、上一步启动成功后,会有日志信息显示,服务启动成功,可以在浏览器 http://127.0.0.1:6800/查看6、如果上述步骤都已成功,会发...原创 2019-11-15 16:43:41 · 1010 阅读 · 0 评论 -
京东商品价格获取的三种方式
问题描述:京东商品的详情页,价格是js动态加载的,源代里获取不到,该如何破解?商品详情页的价格,在网页源代码里找不到,xpath提取为空,这可怎么办?解决方案:一、selenium加载页面,进行提取这个方法是万能的,一定能抓到数据,但是会影响速度和性能,可以参考第二、三种方法。二、商品列表页可以获取价格1、可以在商品列表页,获取商品价格,使用xpath提取2、xpath可...原创 2019-10-15 11:52:06 · 10374 阅读 · 4 评论 -
【python】腾讯云图像识别打标SDK(demo)
腾讯云的图像识别和阿里云差不多,但是比阿里云便宜,先分享一下各平台打标对比价格等。这里分享一下腾讯云打标的接口调用,Python3版本。from tencentcloud.common import credentialfrom tencentcloud.common.profile.client_profile import ClientProfilefrom tencentcloud...原创 2019-08-27 10:08:32 · 736 阅读 · 1 评论 -
【Python】伪造数据使用faker库
什么是fakerFaker是一个Python包,开源的GITHUB项目,主要用来创建伪数据,使用Faker包,无需再手动生成或者手写随机数来生成数据,只需要调用Faker提供的方法,即可完成数据的生成。GitHub链接:https://github.com/joke2k/faker安装faker方法一:pip install faker方法二:通过上方提供的github...原创 2019-08-21 17:24:43 · 659 阅读 · 0 评论 -
【Python】阿里云图像识别打标脚本demo
对于图像打标问题,阿里云、百度、华为都有自己的API接口。经过测试发现。准确率大概差不多,因为选择了阿里云服务器,所以打标也就用了阿里云的。阿里云打标接口文档阿里云API校验规则文档阿里云自带的Python API是用Python 2.7写的,经过测试,我将其该外Python3版本,分享出来方便大家采用。#!/usr/bin/python# -*- coding:utf-8 -*-...原创 2019-06-25 18:14:25 · 949 阅读 · 0 评论 -
【Python】遍历输出某路径下的所有文件和文件夹三种方法
列出文件夹下所有文件的3个方法:#方法1:使用os.listdirimport osfor filename in os.listdir(r'c:\windows'): print("文件夹名字",filename)#方法2:使用glob模块,可以设置文件过滤import globfor filename in glob.glob(r'c:\windows\*.exe'):...原创 2019-06-04 14:08:23 · 11111 阅读 · 0 评论 -
【Python】将字典数据保存为Json文件/CSV文件
每次在写入文件的时候就很头疼,最喜欢写成json文件,因为保存数据的时候,一般都用字典保存数据,然后使用一个json模块,就可以转化为可以保存的字符串了。但是平时除了写入json,还要写入表格里,因为表格可视性好,还有筛选等等强大的功能,所以也会保存一份表格类型。之前喜欢保存Excel格式,但是总有编解码问题,实在太讨厌了!!! 后来随着数据分析的学习,觉得保存csv很方便,而且代码量减少很多,...原创 2019-05-27 15:45:46 · 16670 阅读 · 3 评论 -
【python】ThreadPoolExecutor线程池基本使用详解
初识Python中已经有了threading模块,为什么还需要线程池呢,线程池又是什么东西呢?在介绍线程同步的信号量机制的时候,举得例子是爬虫的例子,需要控制同时爬取的线程数,例子中创建了20个线程,而同时只允许3个线程在运行,但是20个线程都需要创建和销毁,线程的创建是需要消耗系统资源的,有没有更好的方案呢?其实只需要三个线程就行了,每个线程各分配一个任务,剩下的任务排队等待,当某个线程完成了...转载 2019-05-15 11:16:34 · 1619 阅读 · 0 评论 -
【Python】检测下载不完整、半截灰色的JPG、JPEG、PNG图片脚本
作为一个图片网站的爬虫,在下载到本地的时候,总有一些图片显示不完全,例如这样:错误图片展示出现这种问题的原因是什么呢?1、网络问题:网络不稳定,接收到的图片信息不完整。也就是说response有问题;2、本地磁盘满了:有时候接收到的图片信息完整,但是本地磁盘存不下了,毕竟一个图片也要好几Mb呢。如何检测错误图片呢?试了很多方法,一个较好的方法就是判断jpg、jpeg、png文件结尾...原创 2019-04-03 16:20:19 · 4105 阅读 · 11 评论 -
【Python】有道翻译的SDK
爬取国外网站的时候,总有一些单词要翻译,找了一些翻译接口,发现有道翻译API还可以,但是网上说有限制,一小时可以翻译1000次,但是实测可以抗住更多翻译的。如果有长篇要翻译,可以一次翻译一句话,或者多个词一起翻译。以实现大量翻译。"""有道翻译SDK输入query_string输出translated_string"""import requestsimport jsonimpo...原创 2019-07-15 17:35:23 · 1237 阅读 · 0 评论 -
Python:如何找出二进制中1的个数???对于任意无符号数字n,与本身-1做按位与操作,循环到0停止,循环i次,就有i个1.
Python:如何找出二进制中1的个数???对于任意无符号数字n,与本身-1做按位与操作,循环到0停止,循环i次,就有i个1.有一个很巧妙的算法,就是对于一个二进制整数,将它减一和它本身相与(&),会把这个整数最右边的1变为零,直到全为0为止,有多少1就可以循环多少次。例如:# 3 ==> 0000 0011 二进制里面有两个1# 第一次让 3&(3-1) ==...原创 2018-09-27 20:21:11 · 594 阅读 · 0 评论 -
【Python】内置函数(filter \ sorted \ map \ reduce) 接收lambda函数作为参数的用法详细说明
filter 函数filter() 函数用于过滤序列,过滤掉不符合条件的元素,返回由符合条件元素组成的新列表。filter()接收两个参数;第一个函数function 为函数;第二个iterable 可迭代的序列,序列中额每个元素作为参数传递到function函数内进行判断;返回值:一个新列表,包含判断结果为True的元素。注意:python2.7 中返回列表,python 3.x...原创 2018-09-04 15:58:02 · 510 阅读 · 0 评论 -
Python里面如何生成随机数? random \ randint \ randrange \ uniform \ choice
在Python中用于生成随机数的模块是random,在使用前需要import.random.randint(a, b):生成[a,b]之间的整数;random.random():生成一个0-1之间的随机浮点数;random.uniform(a, b):生成[a,b]之间的浮点数;random.randrange(a, b, step):在指定的集合[a,b)中,以step为基数...原创 2018-08-29 15:23:53 · 1002 阅读 · 0 评论