python_爬虫
文章平均质量分 75
python_爬虫
zk仔的博客
静候再静候,就算失收始终要守
展开
-
解析器_etree
from lxml import etreesrc_str='''<?xml version="1.0" encoding="ISO-8859-1"?><bookstore><book category="COOKING"> <title lang="en">Everyday Italian</title> &l...原创 2020-01-06 17:12:28 · 334 阅读 · 0 评论 -
scrapy_常用技术
scrapy_常用技术中间件简明数据库链接MySqlMongoDB对接selenium对接Docker中间件简明middlewares.pyDOWNLOADER_MIDDLEWARESSpider与Downloader的中间件from scrapy import signalsfrom fake_useragent import UserAgentclass RandomUse...原创 2019-08-10 14:53:22 · 209 阅读 · 0 评论 -
爬虫_requests_html
爬虫_requests_html安装基本使用生成htmlscript支持安装pip3 install requests_html基本使用# 导入# from requests_html import HTMLSession,HTML# 生成会话session = HTMLSession()# 设置头部headers={ 'User-Agent':'Mozilla/5...原创 2020-02-07 11:25:04 · 157 阅读 · 0 评论 -
scrapy_常用快查
scrapy_常用快查生成项目修改协议设置请求和解析设置headers设置代理设置管道启动项目构造请求构造响应其他常用函数生成项目scrapy startproject <project_name> #生成项目文件scrapy genspider mySpider 163.com #生成基本spider模板scrapy genspider -l #显示spider模板列表...原创 2019-03-19 11:37:40 · 193 阅读 · 0 评论 -
python_爬虫_scrapy
爬虫_scrapyscrapy逻辑图创建项目编写SpiderSpiderCrawlSpider选择器Shell中调试选择器使用Item定义使用执行爬取scrapy逻辑图创建项目创建一个新的Scrapy项目scrapy startproject tutorial:生成项目文件该命令将会创建包含下列内容的 tutorial 目录scrapy.cfg: 项目的配置文件tutorial...原创 2019-02-27 12:09:26 · 147 阅读 · 0 评论 -
选择器_CSS和XPath
选择器_css和xpathXPathcss选择器XPathhttp://www.runoob.com/xpath/xpath-syntax.htmlcss选择器选择器示例示例说明CSS.class.intro选择所有class="intro"的元素1#id#firstname选择所有id="firstname"的元素1**选择所有元素2...转载 2019-02-26 17:34:26 · 184 阅读 · 0 评论 -
python_正则表达式
python_正则表达式常用函数正则表达式模式正则表达式实例常用函数编译匹配模式:re.compile(pattern[, flags]):返回re.MatchObject,可被存入匹配参数pattern里匹配:re.match(pattern, string, flags=0):从头开始匹配,只匹配1次re.search(pattern, string, flags=0):匹配...原创 2019-02-26 17:14:30 · 123 阅读 · 0 评论 -
python_解释器_BeautifulSoup
解释器_BeautifulSoup导入模块构造常用方法标准选择器css选择器example导入模块依赖包:lxmlfrom bs4 import BeautifulSoup构造BeautifulSoup(markup,'html.parser'):python内置标准库,速度适中,容错强BeautifulSoup(markup,'lxml'):速度快,容错强Beautiful...原创 2019-02-26 14:41:51 · 520 阅读 · 0 评论 -
python_爬虫_urllib
爬虫_urllib导入模块设置请求高级请求设置提交请求响应体处理编码处理异常处理导入模块# 用于请求from urllib import request# 用于编码及解码from urllib import parse # 用于错误处理import urllib.error设置请求request.Request():设置请求req.add_hander():添加请求头...原创 2019-02-25 17:16:47 · 104 阅读 · 0 评论 -
python_爬虫_requests
爬虫_requsets导入模块请求方式响应体处理保持会话模式设置代理忽略证书认证设置异常处理其他补充相关文档状态码汇总调试网站导入模块# 常规导入import requests# 用于保持会话from requests import Session# 用于认证from requests.auth import HTTPBasicAuth请求方式requests.get()...原创 2019-02-25 11:29:35 · 246 阅读 · 0 评论 -
python_爬虫_webdriver模拟器
爬虫之selenium导入模块初始化及配置设置打开窗口方式常用函数定位元素导入模块# 用于初始化from selenium import webdriver# 用于浏览器引擎的配置from selenium.webdriver.firefox.firefox_profile import FirefoxProfile# 包含获取元素element的方法from selenium....原创 2019-02-24 12:03:57 · 742 阅读 · 0 评论 -
抓包_Appium安装和配置
appium安装及配置配置环境:1.安装配置Java SDK-【没有安装后面可能会报错】下载链接:http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html(1)新建-&amp;amp;amp;amp;amp;amp;amp;amp;gt;变量名&amp;amp;amp;amp;amp;amp;amp;quot;JAVA_HOME&a原创 2018-12-14 15:20:28 · 400 阅读 · 0 评论 -
抓包_mitmproxy安装和配置
下载链接:https://github.com/mitmproxy/mitmproxy/releases1.windows安装windows不支持mitmproxy控制台,但支持mitmdump和mitmweb(1)下载exe安装(2)运行cmd,启动一次程序mitmdump(3)打开随后生成的证书路径C:\Users\Administrator.mitmproxy【安装后才可以抓...原创 2018-12-14 16:01:59 · 1654 阅读 · 1 评论 -
抓包_Charles的安装和配置
1.安装下载链接:https://www.charlesproxy.com/download/2.破解(1)注册码方法Registered Name:https://zhile.ioLicense Key: 48891cf209c6d32bf4(2)替换文件方法下载破解文件charles.jar替换掉原文件夹里的charles.jarMac: /Applications/Char...原创 2018-12-14 18:10:45 · 207 阅读 · 0 评论