pylemon-CSDN博客

原创 python kafka 生产者发送数据的三种方式

python kafka 生产者发送数据的三种方式发送方式同步发送发送数据耗时最长有发送数据的状态，不会丢失数据，数据可靠性高以同步的方式发送消息时，一条一条的发送，对每条消息返回的结果判断，可以明确地知道每条消息的发送情况，但是由于同步的方式会阻塞，只有当消息通过get返回future对象时，才会继续下一条消息的发送异步发送发送数据数据耗时最短可能会丢失数据，数据可靠性低因为不会获取消息发送的返回结果，这种方式的吞吐量是最高的，但是无法..

2020-12-24 13:13:59 6091 7

原创 scrapy post提交json内容

文章目录scrapy 发送post时，如何发送json内容。查看实列就清楚了。编写测试接口 post_api.py# -*- coding:utf-8 -*-# @FileName :post_api.py# @Time :2020/8/7 9:25# @Author :pylemonfrom flask import Flask, requestapp = Flask(__name__)@app.route('/', methods=['POST'])d

2020-08-07 10:05:22 807 1

原创 Tampermonkey 油猴 js hook 教程

文章目录参数说明参考Tampermonkey 是一款免费的浏览器扩展和最为流行的用户脚本管理器，它适用于 Chrome, Microsoft Edge, Safari, Opera Next, 和 Firefox。虽然有些受支持的浏览器拥有原生的用户脚本支持，但 Tampermonkey 将在您的用户脚本管理方面提供更多的便利。它提供了诸如便捷脚本安装、自动更新检查、标签中的脚本运行状况速览、内置的编辑器等众多功能，同时Tampermonkey还有可能正常运行原本并不兼容的脚本。参数说明官方文

2020-08-02 20:18:22 4999 3

原创 EditThisCookie chrome插件使用&cookie属性介绍

文章目录下载安装概述功能介绍cookie 属性编辑cookie其他功能下载安装通过chrome应用商店搜索 EditThisCookie 安装【推荐】通过chrome插件管理添加加载已解压的扩展程序。大家把压缩包解压再添加即可，下载地址：https://download.csdn.net/download/qq_27648991/12678652概述与您的设备兼容EditThisCookie是一个cookie管理器。您可以添加，删除，编辑，搜索，锁定和屏蔽cookies！针对Go

2020-08-01 16:48:19 11527

原创 windows charles安装使用教程

文章目录安装安装PC证书配置监听端口手机安装证书安装官网下载地址：https://www.charlesproxy.com/latest-release/download.do下载安装之后，需要破解。破解的话baidu。安装PC证书安装步骤如图所示证书安装注意安装位置：这时证书安装完毕！配置监听端口在设置窗口中选择：Proxy → SSL Proxy Setting...

2020-07-26 22:16:22 3450 3

原创 Linux vi和vim编辑器命令大全

文章目录一般模式编辑模式指令模式所有的 Linux 系统都会内建 vi 文本编辑器。Vim 具有程序编辑的能力，可以看做是Vi的增强版本，可以主动的以字体颜色辨别语法的正确性，方便程序设计。代码补完、编译及错误跳转等方便编程的功能特别丰富，在程序员中被广泛使用。我们只需要掌握它的基本使用即可。一般模式以vi打开一个档案就直接进入一般模式了（这是默认的模式）。在这个模式中，你可以使用『上...

2020-05-04 21:29:06 244

原创 Liunx目录结构功能介绍

文章目录结构示意图目录结构结构示意图linux的文件系统是采用级层式的树状目录结构，在此结构中的最上层是根目录“/”，然后在此目录下再创建其他的目录。深刻理解linux树状文件目录是非常重要的，这里我给大家说明一下。记住一句经典的话：在Linux世界里，一切皆文件目录结构/bin [重点] (/usr/bin 、 /usr/local/bin)是Binary的缩写,...

2020-05-04 21:24:27 169

原创 Linux虚拟机的网络连接模式

文章目录桥接模式Nat 网络地址转换模式仅主机模式安装虚拟机的网络接连模式介绍桥接模式分配window内网地址，就是虚拟机与window共用同一个内网网段比如window内网地址范围是192.168.1.0-192.168.1.255，那么虚拟机会使用其中的地址。但是 192.168.1.0是保留地址，192.168.1.1是网管地址，192.168.1.255是广播地址。所以桥接模式...

2020-05-04 21:20:31 307

原创 Mitmproxy详细教程及二级代理

文章目录简介-参考安装Linux下的安装Mac下的安装安装数字证书windowsmacandroid and iosweb安装操作命令pip install mitmproxy启动参数拦截pc请求设置示例代码配置二级代理方法一修改X2yyy配置文件拦截文件启动文件方法二简介-参考windows不支持mitmproxy的控制台的接口输出，但是可以使用mitmdump和mitmweb参考...

2020-04-28 17:15:51 9801 12

原创 python使用pyppeteer详细教程

文章目录介绍环境部署pip installchromium下载快速使用应用技巧启动参数优化常用的参数其他参数示例窗口/可视区最大化隐藏浏览器特征拦截请求介绍注意，讲解的模块叫做 Pyppeteer，不是 Puppeteer。Puppeteer 是 Google 基于 Node.js 开发的一个工具，有了它我们可以通过 JavaScript 来控制 Chrome 浏览器的一些操作，当然也可以用...

2020-04-05 20:29:54 20303 46

原创 python 修改包的导入（优先级）解决 cmd 导入自定义包报错

解决 cmd 导入自定义包报错# 获取路径file_path = os.path.dirname(os.path.abspath(__file__))# 修改运行路径sys.path.append(file_path)sys.path.insert(0, os.path.dirname(file_path)) # 0 表示优先级，数字越大级别越低修改模块的导入 ...

2018-11-12 10:56:24 955

原创 python 有损和无损方式替换表情符号

无损方法好处：保留原来字符串的全部内容缺点：耗内存，需要对源字符串进行url解码这个是把对应的表情和英文符号进行urlencode 这样就可以保存原有的字符串，不会破坏原来的样式，直接对字符串进行url解码即可import refrom urllib.parse import quote, unquotefrom zhon import hanzifrom zhon.h...

2018-11-08 19:40:42 854

原创扩展爬虫框架

async 可以快速下载简单的网页 spynner,ghost 这个是模拟浏览器的框架这段代码配合专门的selenium+chrome 可以过淘宝的webdriver 检测这个必须结合try 捕获异常，每次翻页必须捕获driver=webdriver.Chrome()js='''Object.defineProperty(navigator, 'webdriver...

2018-11-07 22:07:17 245

原创 python list 查找所有匹配元素的位置

import reword = "test"s = "test abcdas test 1234 testcase testsuite"w = [m.start() for m in re.finditer(word, s)]print(w)

2018-10-30 11:20:35 21699 1

原创 python scrapy 修改时间统计信息源码

修改scrapy 时间统计，优化时间，增加总耗时统计！修改文件：corestats.py 位置： D:\python\Lib\site-packages\scrapy\extensions修改下面两个函数：注释的都是源码 def spider_opened(self, spider): # 源码 # self.stats.set_val...

2018-10-29 10:04:19 841

原创 python 字符串输出报错 'utf-8' codec can't encode characters in position

一些字符串无法被utf-8解码，所以可以把无法转化为utf-8格式的字符‘ignore’掉，再进行解码。str().encode('UTF-8', 'ignore').decode('UTF-8')测试代码： text = ''''\n <li class="thread_top_list_folder">\n ...

2018-10-26 10:42:50 26831 1

原创 pyhon3模拟鼠标点击滚动下拉，键盘复制粘贴输入中文

安装包pip install pyautoguipip install pyperclippyautogui更多参考官网：https://github.com/asweigart/pyautogui不支持中文输入from time import sleepimport pyautogui# 正负数表示向上或向下数值越大滚动幅度越大pyautogui....

2018-10-22 15:13:04 6757 4

原创 python+appium windows下搭建运行环境

本人设备说明：手机：三星Samsung S8+ 安卓android8.0电脑：win10 64位所需的软件python3.6.5 java nodejs appium ---这里安装的是界面版本的通过 android studio 安装安卓sdk软件都可以通过官网下载，或者使用百度云https://pan.baidu.com/s/1n3tTZV4-5V9NI-Y1...

2018-10-03 11:54:22 1115

原创 python 发送邮件及附件

用授权码登录发送邮件及附件需要对邮件进行POP3/SMTP服务设置，例如qq邮箱：特别提示- ---> 千万不要泄漏自己的授权码这里的邮箱的域名与端口根据自己的实际邮箱去填写（这是qq邮箱）#!/usr/bin/python# -*- coding: UTF-8 -*-import smtplibimport email.mime.mu...

2018-09-29 16:48:42 8734 8

原创解决scrapy+redis分布式爬虫空跑问题

问题说明：在scrapy 结合redis做分布式爬取时，会出现scrapy已经完成爬取，但是爬虫却不会结束，一直等待新的url。将以下代码复制即可实现：1. 在settings.py目录下创建一个extensions.py文件，代码如下# -*- coding: utf-8 -*-# Define here the models for your scraped ...

2018-09-29 13:21:59 1283 1

原创 python高级算法：列表冒泡/字典排序/字典统计相加

列表冒泡一：'''这里 if list_x[k] < list_x[k+1]: < 和 > 控制着输出的顺序 > 表示正序 < 表示倒序隐藏部分是查看的执行的流程'''list_x = [12, 34, 21, 22, 1, 4, 5, 3]for i in range(len(list_x)-1): # pri...

2018-08-09 10:16:41 1843

原创 scrapy：Pipelines三种方法保存json文件

推荐：JsonLiensItemExporter这个是每次调用export_item 时，都会存储到硬盘中。好处：每次处理数据的时候直接储存到硬盘中，减少内存的使用，数据比较安全坏处：字典是一行一行写入json文件中，整个文件不是一个满足json格式的文件。解决办法：读取时，遍历每一行并用json.loads()解析from scrapy.exporters import J...

2018-08-08 20:30:28 2800

原创 scrapy框架-解决windows安装报错/Ubantu安装与scrapy项目创建

安装scrapye提示：不管windows/ubantu 下载scrapy需要进入自己的虚拟环境安装scrapy，不使用虚拟环境忽略这个提示... windows安装1. 下载Twisted包推荐离线安装，在线安装我这里失败报错，所以推荐离线安装，不下载这个会报一个缺少windows的一个工具的错误网址：https://www.lfd.uci.edu/~gohlke...

2018-08-08 20:20:49 693

原创 selenium-python-设置代理IP操作与WebElement元素

设置代理IP有时候频繁的爬取一些网页。服务器发现你是爬虫会封掉你的ip，这时候需要更改ip，不同的浏览器有不同的实现方式。from selenium import webdriveroptions = webdriver.ChromeOptions() # 设置谷歌浏览器的一些选项# proxy 代理 options 选项options.add_argument(r'--pro...

2018-08-07 23:46:13 10130

原创 selenium-python-隐式等待与显示等待

页面等待隐式等待：调用driver.implicitly_wait 那么在获取不可用的元素之前，会等待10秒中的时间driver = webdriver.Chrome()driver.implicitly_wait(10)driver.get(‘https:\\www.baidu.com’)显示等待：显示等待是表明某个条件成立才执行获取元素的才做、也可以等待的时候指定...

2018-08-07 23:39:15 8053 3

原创 selenium-python-行为链与cookie操作

行为链有时候在页面中的操作可能要有很多步，那么这时候可以使用鼠标行为链ActionChains来完成。比如现在要将鼠标移动到某个元素上并执行点击事件from selenium import webdriverfrom selenium.webdriver.common.action_chains import ActionChainsdriver_path = r'E:\ven...

2018-08-07 23:35:13 483

原创 selenium-python-操作表单元素与切换窗口

selenium常用操作 - 操作表单元素输入框：# input_tag 是通过xpath获取的表单中input元素input_tag.send_keys() # 发送内容input_tag.clear() # 清除内容input_tag.click() # 点击select选择框：select不能直接点击。因为点击后还需要选中元素，这时候selenium就提...

2018-08-07 23:33:26 2122

原创 selenium-python-关闭与定位操作

selenium常用操作关闭网页driver.close() # 关闭当前页面driver.quit() # 退出浏览器定位元素# 根据id来查找元素find_element_by_id()# 根据类名查找元素find_element_by_class_name()# 根据name属性值查找元素find_element_by_name()# 根据标签名查找元...

2018-08-07 23:10:18 906

原创 Selenium-快速使用

点击查看 selenium-python-关闭与定位操作点击查看 selenium-python-操作表单元素与切换窗口点击查看 selenium-python-行为链与cookie操作点击查看 selenium-python-隐式等待与显示等待点击查看 selenium-python-设置代理IP操作与WebElement元素 Selenium获取动态数据Selenium...

2018-08-07 23:01:57 286

原创 python 爬虫 pytesseract 验证码识别：识别拉勾网验证码

pytesseract安装pip install pytesseract如果下载之后没有PIL图片读取的库，需要下载 pip install PIL 或者pip install Pillow 代码from urllib import requestfrom time import sleepimport pytesseractfrom PIL import Image...

2018-08-06 21:24:39 801

原创 python 爬虫 pytesseract 验证码识别：认识Tesseract

Tesseract-验证码识别Tesseract是一个OCR库，他通过训练识别任何字体安装windows系统安装：网址：https://digi.bib.uni-mannheim.de/tesseract/https://github.com/tesseract-ocr/Linux安装sudo apt install tesseract-orcMac安装...

2018-08-06 21:20:58 1405

原创实战-selenium实现BOSS直聘网信息爬取

实现了monodb和csv的文件写入mongodb如下：这里学历要求获取错了，取错列表下标了...，代码已经改正Excel如下：这里学历要求获取错了，取错列表下标了...，代码已经改正待解决问题:由于过多的请求页面有时弹出验证码，代码现在只能通过手动输入解决，我这里设置了等待时间人工输入了验证码可继续写入。最简单的方法就是可以通过更换ip去实现跳过验证码...

2018-08-03 12:09:12 3399

原创实战-selenium完美实现拉勾信息爬取-2

获取北京python工作岗位实现了mongodb数据库和csv文件存在的问题：偶尔文件执行报错--Stale Element Reference Exception好像是JavaScript把网页给刷新了，那么操作的时候就会碰到Stale Element Reference Exception。所以这个异常并不是每次都会产生，也不是你想复现就能复现。小白：希望大家可以回复解决办法和优化...

2018-08-02 19:03:50 544

原创实战-selenium完美实现拉勾信息爬取-1(Requsets)

Requests页面解析（练习）点击查看Selenium实现拉勾网信息爬取import requestsfrom lxml import etreefrom h_selenium.lagou_headers import HEADERSimport refrom time import sleepfrom random import randintdef request_...

2018-08-01 12:06:25 438

原创 MySQL数据的基本类型——实用篇

MySQLMySQL 是现在最流行的关系型数据库管理系统关系型数据关系型数据库指：多张能互相联接的二维行列表格组成的数据库——类似windows下的Excel表格数据SQL 表示: Structrued Query Language 结构化查询语言MySQL主要功能： - 存储数据(仓库) - 管理数据(增删改查)数据库(增删改查)管理系统 DBMS=DataBase Management S...

2018-05-23 00:12:53 3490

原创 MySQL基础操作（增删查改） ——实用篇

MySQL语法是大写！语句结束必须用分号结尾 ; 在SQL语句中-- 英文双横杠+空格表示注释 MySQL 查看数据库我们可以在登陆 MySQL 服务后，我们可以使用 show 查看数据库 database语法SHOW DATABASES; MySQL 创建数据库语法使用 creat 命令创建数据库，语法如下:CREATE DATABASE...

2018-05-23 00:12:25 33999 4