Python
文章平均质量分 54
小牛牛先生
要是不能把握时机,就要终身蹭蹬,一事无成!
展开
-
Python+selenium实现根据session_id控制已经打开了谷歌浏览器示例
本文参考自:https://cloud.tencent.com/developer/article/1067145在使用selenium进行编写爬虫或者自动化程序的时候,每次实例化都会新开一个全新的浏览器会话,但是在有些情况下需要复用之前打开未关闭的会话。比如爬虫,希望结束脚本时,让浏览器处于空闲状态。当脚本重新运行时,它将继续使用这个会话工作。还就是在做自动化测试时,前面做了一大推操作,但是由于程序出错,重启时不用再继续前面复杂的操作。说简单点,其实就类似于连接池一样,比如使用selenium提前打开.原创 2021-03-15 11:59:25 · 3095 阅读 · 1 评论 -
墨卡托坐标系和gcj03坐标系转换
使用pytho将百度系的坐标点转换成经纬度,如图下所示的样例:转换代码:#!/usr/bin/python#-*- coding=utf-8 -*-import mathMCBAND = (12890594.86, 8362377.87, 5591021, 3481989.83, 1678043.12, 0)MC2LL = ([1.410526172116255e-8, 0.00000898305509648872, -1.9939833816331, 200.原创 2021-08-02 13:39:31 · 498 阅读 · 0 评论 -
python获取liunx服务器信息
import osimport platformimport refrom datetime import datetimeimport timeimport psutil'''获取服务器信息'''def get_server_information(): # 主机名称 hostname = platform.node() # 系统版本 system_version = platform.platform() # python版本 pytho.原创 2021-07-20 17:31:54 · 347 阅读 · 0 评论 -
Python3 sqlite3数据操作简易封装
# -*- coding:utf8 -*-import sqlite3'''sqlite3数据操作简易封装'''class DBHP(): def __init__(self,db_name=None): self.conn = sqlite3.connect(db_name if db_name else 'CattleSpider.db') self.cursor = self.conn.cursor() print("初始化打开数.原创 2020-08-12 14:18:58 · 8345 阅读 · 1 评论 -
Python3获取谷歌翻译
import execjsimport requests'''爬取谷歌翻译结果pip install PyExecJS'''def get_js_result(): htmlstr = ''' function VL(a) { var b = a.trim(); return TL(b); } ...原创 2020-04-16 23:24:25 · 6176 阅读 · 1 评论 -
python requests库爬取冒险岛发布站数据
今天来给大家讲解一下,Python爬虫经常会用到的一个基本库 requests来请求网页,获取数据。爬取目标:冒险岛发布站:http://mxd.liuyanlin.cnimport requestsurl="http://mxd.liuyanlin.cn"res=requests.get(url)print(res.text)...原创 2020-03-31 10:45:42 · 6350 阅读 · 1 评论 -
Python3将文件压缩成zip格式
例如我这里将 upload_load.py 文件压缩成upload_load.zip ,运行代码,在指定目的下就会生成:upload_load.zip 文件#压缩文件import time,zipfileclass zip: def get_zip(self,files,zip_name): zp=zipfile.ZipFile(zip_name,'w', zi...原创 2020-02-12 10:26:15 · 8025 阅读 · 0 评论 -
Python在win环境下杀掉指定端口示例代码
import osimport re'''功能:python实现杀掉指定端口win10系统环境下python版本:3.6'''def kill_port(port): # 查找端口的pid find_port = 'netstat -aon | findstr %s' % port result = os.popen(find_port) text...原创 2019-12-27 11:52:00 · 6316 阅读 · 0 评论 -
python实现给定两个城市的坐标计算两地相距多少公里
代码如下:from math import radians, cos, sin, asin, sqrt'''给定两个地址的坐标,计算返回两地相距多少公里 demo:address1=成都 lon1 = 104.071000 lat1 = 30.670000address2=宜宾 104.622000 lat2 = 28.765000'''def get_address_dis...原创 2018-09-30 10:42:10 · 13314 阅读 · 0 评论 -
python判断字符串是否是中文
def is_Chinese(word): for ch in word: if '\u4e00' <= ch <= '\u9fff': return True return Falseprint(is_Chinese("测试"))运行结果如图:原创 2018-09-30 15:50:57 · 21968 阅读 · 0 评论 -
centos7 下安装 python3.6.4 安装virtualenv 来隔离python2 和python3 的环境
原文地址:https://blog.csdn.net/yangxiaodong88/article/details/79128119背景开发使用python3.6.4 但是系统自己带的是2.7 版本的 不仅要安装python3.6 还要将环境隔离开下载安装下载python3.6编译安装 1 、建立一个soft 文件夹 用来存放下载文件 mkdir soft环境准备 yum i...转载 2018-10-17 14:29:34 · 11156 阅读 · 0 评论 -
向指定的excel文件中追加数据
首先 pip install xlutilsimport xlrdfrom xlwt import *import osfile_name="E:\\test_file\\test.xls"#打开指定路径excelbk = xlrd.open_workbook(file_name)#复制一份wb=copy(bk)#获取Sheet1sheet=wb.get_sheet(...原创 2018-10-25 13:45:56 · 13686 阅读 · 0 评论 -
Python网络爬虫第1章Python基础
快速入门篇网络爬虫(又被称为网页蜘蛛Spider,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。本书将使用Python语言作为开发工具从Python基础开始由浅入深的讲解爬虫的开发流程及设计思路。Python基础★本章导读★有句老话说得好,“工欲善其事,必先...原创 2018-10-30 11:00:40 · 11450 阅读 · 0 评论 -
Python3实现获取指定日期范围内的月份列表
import datetimefrom dateutil import rruleclass TimeHelper(): def getMonthRangList(self, start_month, end_month): """ 从开始日期到结束日期查询存在的月份列表,除去本月的数据 :param start_month: ...原创 2018-11-23 17:16:29 · 13439 阅读 · 2 评论 -
python爬取谷歌翻译
由于谷歌翻译的api官方接口是有次数限制和收费的,于是乎,自己动手丰衣足食,通过抓包,js加密拼接,自己用python封装了一个爬取谷歌中英文翻译的接口,目前比较稳定无次数限制,地址:http://www.liuyanlin.cn/google_translate效果图如下:...原创 2018-09-21 15:07:41 · 13435 阅读 · 1 评论 -
python获取中文字符首字母
import pinyin#输入namedef get_pinyin_first_alpha(name): return "".join([i[0] for i in pinyin.get(name, " ").split(" ")])data=get_pinyin_first_alpha("你好呀")print(data)原创 2018-09-25 14:39:05 · 14279 阅读 · 0 评论 -
python3操作psycopg2/其它SQL数据库时查询数据以字典格式返回
在python3中,操作pymysql或者psycopg2等SQL数据库进行数据查询时,它这个库里面好像并没有像python2一样在底层自动帮我们循环转换好以字典键值对的格式给我们返回数据(可能是我没找到),而是在列表里面以元组类型直接把值返回过来,这样就导致我们在取值的时候只能通过下标去取,很容易出错,非常的不方便。针对于此,我简单封装了一个方法,以psycopg2为例,在执行查询语句时...原创 2018-09-13 15:05:53 · 19003 阅读 · 5 评论 -
根据postgresql或者greenplum数据库创建表的sql语句转换成最基本的django model代码字符串
有时候在django中使用postgresql和greenplum数据库时,使用django model的数据库同步命令时会有问题,生成不了对应的数据库表,无奈只有手工先创建数据库表,然后再根据表字段手动创建model,为了提高效率我写了一个简单的脚本把创建表的sql自动转换成Model格式的字符串。同时也用了flask框架简单写了个html页面在线转换脚本下载地址:https://downl...原创 2018-09-12 17:06:45 · 11370 阅读 · 0 评论 -
python读取excel数据并以第一行标题加内容组成字典格式返回
excel结构如图所示:代码:import xlrd'''通用获取excel数据@:param path excel文件路径@:param sheet_name excel文件里面sheet的名称 如:Sheet1返回数据列表,如:[{"name":"张三","age":23},{"name":"李四","age":23}]'''def getExcelDat原创 2018-09-04 14:35:39 · 20723 阅读 · 5 评论 -
使用Python requests post上传图片
python版本3.6.1有时候需要使用requests模拟表单post提交文件,咱们可以这样写res=requests.request("POST",url, data=None, files=files)demo如图:原创 2018-07-05 11:21:04 · 41553 阅读 · 4 评论 -
liunx查看python的site-packages路径
有时候我们在liunx上想修改查看python的包路径可以试试以下命令from distutils.sysconfig import get_python_libprint(get_python_lib())如图:原创 2018-06-07 14:44:47 · 35118 阅读 · 0 评论 -
centos7上安装pycurl的一些坑解决办法
python -version==3.6.1在centos7安装python3处处是坑,比如我安装了python3.6以后,在使用pycurl时会报错。错误信息:ImportError: pycurl: libcurl link-time ssl backend (nss) is different from compile-time ssl backend (none/other)遇到这个错误以...原创 2018-06-07 11:39:48 · 16116 阅读 · 0 评论 -
pyspider爬取https网址的时候报HTTP 599: SSL 错误解决办法
pyspider是个非常适合新手快速入门爬取网站数据的一个框架,是国内某个大神写的,然而往往我们在实际使用过程中也会遇到很多坑,下面是我在使用pyspider爬取https网站的时候报了一个错误:错误信息:HTTP 599: SSL certificate problem: self signed certificate in certificate chain字面上看说的是我的ssl证书有问题,...原创 2018-05-31 10:00:15 · 15145 阅读 · 0 评论 -
pg数据库日期字段索引查询优化
有时候我们在使用sql查询的时候,会涉及到根据日期查询内容,通常做法都是通过日期字段 >= 来判断日期范围的,当数据量大了,你会发现查询速度就会很慢,这时候我们可以做些优化,给日期字段建立索引,更改查询语句,如下例子: select * from fcz_moment where dep_airport_code='CTU' and air_date ~'2018-02|2...原创 2018-11-23 17:32:01 · 17043 阅读 · 0 评论 -
python3实现socket客户端通信demo
1.创建server.py文件作为服务端,代码如下:#服务端import socketserverclient_list=[]class TCPHandler(socketserver.BaseRequestHandler): # 所有请求的交互都是在handle里执行的, def handle(self): while True: ...原创 2018-12-04 16:51:23 · 12901 阅读 · 3 评论 -
使用python+selenium爬取同城旅游网机票信息
最近使用python+selenium爬取了同城旅游网机票信息相关主要代码如下,通过模拟人为操作,拿下了这个机票列表的html代码,然后就可以使用xpath或者re等方式从中提取需要的字段信息了。from selenium import webdriverfrom selenium.webdriver.support.wait import WebDriverWaitfro...原创 2018-12-19 13:28:22 · 9022 阅读 · 0 评论 -
python开发常用环境包
进行python开发我一般会用一下工具1,python2.72,安装pip,用于python包的安装,安装pip之前可能要先安装python-dev3,MySQL-python 1.2.5用于连接mysql数据库4,django1.9.2框架5,mysql数据库6,mongodb数据库7,pymongo 3.2.18,xlwt 用于导出数据到excel9,red原创 2017-01-20 16:34:53 · 6547 阅读 · 0 评论 -
Python爬虫之骚操作,破解扫码登录
来給大家分享一种破解扫码登录的方法,这里以淘宝为例,特别的骚气,老铁快双击666,哈哈哈哈准备工作:1,一台不常用的手机,下载安装好淘宝app,并使用一个不常用的账号登录。2,确保电脑已经配置好了 appium和selenium 环境3,准备一个支架,将手机固定在电脑屏幕前,并且确保使用数据线能正确连接appium4,破解思路:编写代码,使用selenium跳转到淘宝登录界面,...原创 2019-10-11 10:16:01 · 14695 阅读 · 4 评论 -
使用 aiowebsocket 库获取websocket数据
在写爬虫的时候,偶尔会碰到要爬取的网站或者app数据是通过websocket返回的,这时候,我们可以通过Python的 aiowebsocket这个库来进行爬取,下面是一个简单的示例代码,获取指定ws地址的数据并打印:import asyncioimport loggingfrom aiowebsocket.converses import AioWebSocketimport jso...原创 2019-10-08 15:12:03 · 8635 阅读 · 2 评论 -
Python+Selenium+Browsermob-Proxy 爬虫-获取浏览器Network请求和响应
1.问题 自从发现Selenium这块新大陆后,许多异步加载、js加密、动态Cookie等问题都变得非常简单,大大简化了爬虫的难度。但是有些时候使用Selenium仍然有一些缺陷,比如现在很多网站数据都是通过json结构的接口来交互,通过分析报文的方式直接发包可以直接拿到json数据,数据不但全而且还很好解析,这比解析html网页容易多了。另一个非常重要的问题就...原创 2019-09-27 16:21:32 · 24343 阅读 · 33 评论 -
Python调用百度语音合成api将文字转换成音频文件并播放代码示例
from aip import AipSpeechimport wave,pygameimport timeimport randomimport os'''pip install baidu-aip调用百度语音合成api将文字转换成音频文件'''def get_video(msg): APP_ID = '17264707' API_KEY = '59xxwY...原创 2019-09-18 10:02:27 · 7858 阅读 · 0 评论 -
使用python将指定文件夹下的全部文件上传到 hdfs 的指定路径
因在公司业务上遇到一个需求,需要将指定服务器上的指定路径下的所有文件,例如:test.csv 上传到hdfs上,参考了网上的一些大佬的帖子实现了需求,故做个笔记方便以后查看,参考地址:https://www.cnblogs.com/SmallCaff/p/10650699.htmlimport osimport platformimport logging as lgfrom...转载 2019-07-29 14:54:29 · 7945 阅读 · 0 评论 -
appPackage和appActivity参数获取方法
以大众点评app为例:我们使用Appium连接并启动大众点评App进行模拟登陆,不知道有没有细心的读者发现,有两个特别重要的参数值appPackage 和 appActivity 。下面分别讲解这个两个参数的值获取方法。1.appPackageappPackage 方法的获取,可以通过一个工具来获取,这个工具的名字叫“GT”,GT的界面中自带了获取appPackage 的功能,使用手机从应...原创 2019-06-26 16:49:12 · 7405 阅读 · 0 评论 -
Python下APScheduler的快速指南
原文转载地址:https://blog.csdn.net/luanpeng825485697/article/details/84395302APScheduler介绍APScheduler是基于Quartz的一个Python定时任务框架,实现了Quartz的所有功能,使用起来十分方便。提供了基于日期、固定时间间隔以及crontab类型的任务,并且可以持久化任务。APScheduler...转载 2019-05-29 16:03:57 · 6302 阅读 · 0 评论 -
selenium优化禁止图片和css加载
在使用 selenium 模拟抓取网页的时候,速度效率其实是非常慢的,可以稍微优化一下,禁止不必要的图片加载和css加载,示例代码如下:from selenium import webdriverfrom selenium.webdriver.chrome.options import Optionsimport timeimport randomoptions = Options...原创 2019-05-21 11:35:16 · 20478 阅读 · 2 评论 -
python使用pyhdfs上传文件到hdfs
本文属于转载,仅用于做个笔记。# -*- coding:utf-8 -*-import pyhdfs'''pip install pyhdfs'''class FileManager(object): # upload file to hdfs from local file system def file_upload(self, host, user_name...转载 2019-08-01 15:08:05 · 9960 阅读 · 6 评论 -
python 获取未来指定天数的日期
from datetime import timedelta, datedef get_day_of_day(n=0): ''''' if n>=0,date is larger than today if n<0,date is less than today date format = "YYYY-MM-DD" ''' if(n...原创 2019-04-23 14:59:38 · 7527 阅读 · 0 评论 -
介绍一款python类型检查工具pyright
原文转载地址:https://mp.weixin.qq.com/s__biz=MzUyOTk2MTcwNg==&mid=2247484111&idx=1&sn=dde34ed721a990c26d98fdcb19e56363&chksm近日,微软在 Github 上开源了一个 Python 静态类型检查工具:pyright,引起了社区内的多方关注。微软在开...转载 2019-03-29 15:00:37 · 9423 阅读 · 0 评论 -
python3 装饰器传参和函数传参结合使用demo
def record_request(data_param): def func_outer(func): def func_inner(*args, **kwargs): print("获取到的函数参数:",args[0]) print("---------函数运行之前-----") func(*a...原创 2019-03-20 10:09:33 · 6829 阅读 · 0 评论 -
ubuntu/深度系统下安装python3.6.4
背景开发使用python3.6.4 但是系统自己带的是2.7 和3.5版本的 不仅要安装python3.6 还要将环境隔离开下载安装下载python3.6编译安装1 、建立一个soft 文件夹 用来存放下载文件mkdir soft环境准备sudo apt-get install opensslsudo apt-get install libssl-dev2 进入...原创 2019-05-15 09:59:56 · 7156 阅读 · 0 评论