![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python编程
文章平均质量分 68
WY_记录
python开发,爬虫,人工智能,ai,aigc,副业
展开
-
python网络爬虫与信息提取——1.requests库入门
1.更多信息http://www.python-requests.org2.安装:Win平台: “以管理员身份运行”cmd,执行 pip install requests3.requests库的七个主要方法:requests.request() 构造一个请求,支撑以下各方法的基础方法requests.get() 获取HTML网页的主要方法,对应于HTTP的GETrequests.h...原创 2018-02-26 16:41:00 · 161 阅读 · 0 评论 -
python网络爬虫与信息提取——3.requests爬虫实战
1.解除User‐Agent限制改变headers,冒充浏览器kv={"User‐Agent":"Mozilla/5.0"}r=requests.get(url,headers=kv)2.搜索关键词提交百度的关键词接口:http://www.baidu.com/s?wd=keyword360的关键词接口:http://www.so.com/s?q=keywordkv=...原创 2018-02-27 10:01:00 · 125 阅读 · 0 评论 -
python网络爬虫与信息提取——2.网络爬虫排除标准robots
1.爬虫尺寸小规模,数据量小,爬取速度不敏感,Requests库,爬取网页 中规模,数据规模较大,爬取速度敏感,Scrapy库,爬取网站大规模,搜索引擎,爬取速度关键,定制开发,爬取全网2.引发问题:性能骚扰,法律风险,隐私泄露3.爬虫限制来源审查:判断User‐Agent进行限制检查来访HTTP协议头的User‐Agent域,只响应浏览器或友好爬虫的访问发布公告:Robo...原创 2018-02-26 17:36:00 · 205 阅读 · 0 评论 -
requests+正则表达式爬取猫眼国内票房榜
'''抓取猫眼国内票房榜,地址:http://maoyan.com/board/1'''import reimport requestsdef one_page(url): ''' 获取页面 ''' headers = { 'User-agent': 'Mozilla/5.0 (X11; Linux x86_64) App...原创 2018-08-12 16:19:26 · 278 阅读 · 0 评论 -
通过requests库伪造表单模拟登录github
from lxml import etreeimport requests# import pdbclass Login(): """ 登录类,为实例提供了初始化状态和方法 """ def __init__(self): """ 初始化请求头,跳转url信息,会话 """ self.原创 2018-08-13 16:23:46 · 583 阅读 · 0 评论 -
BeautifulSoup库
目录Beautiful Soup库解析器基本用法节点选择器(速度快)方法选择器find_all()其他方法CSS选择器UnicodeDammitBeautiful Soup库官方文档:https://www.crummy.com/software/BeautifulSoup/bs4/doc中文文档:https://www.crummy.com/soft...原创 2018-07-24 10:15:00 · 263 阅读 · 0 评论 -
redis存储
目录redis存储 安装,链接与配置 redis python库redis RedisDump redis和StrictRedis 连接Redis 键操作 字符串操作 列表操作 集合操作 有序集合操作 散列操作 RedisDump redis-dump redis-load redis存储安装,链接与配置...原创 2018-07-28 08:58:00 · 269 阅读 · 0 评论 -
返回码和相应的查询条件
# 信息性状态码100: ('continue',),101: ('switching_protocols',),102: ('processing',),103: ('checkpoint',),122: ('uri_too_long', 'request_uri_too_long'),# 成功状态码200: ('ok', 'okay', 'all_ok', 'all_okay...原创 2018-07-22 10:42:00 · 246 阅读 · 0 评论 -
requests库
目录request库 1.七个主要方法 2.Request对象(其它方法参数,用法差不多) 3.Response对象的属性 4.requests异常 5.requests其他方法和属性 requests.codes requests.cookies requests.Session() request库官方文档:http://www.pytho...原创 2018-07-22 14:59:00 · 73 阅读 · 0 评论 -
网页相关查询
目录在线工具 菜鸟教程 HTTP请求方法 http头信息 Content-Type(Mime-Type) HTML转义字符 RGB颜色参考 ASCII对照表 HTTP状态码详解 运算符优先级 TCP/UDP常见端口参考 网页字体参在线工具http://tool.oschina.net/菜鸟教程首页:http://www.runoob.com/html参考手...原创 2018-07-20 09:00:00 · 129 阅读 · 0 评论 -
pymongo操作MongoDB
目录pymongo操作MongoDB 安装,启动及链接 MongoDB pymongo 连接MongoDB,指定数据库,指定集合 插入数据 查询 普通查询 条件查询 计数 排序 偏移 更新 删除 其他操作 pymongo操作MongoDB安装,启动及链接MongoDB返回目录 官方网站:htt...原创 2018-07-26 15:04:00 · 479 阅读 · 0 评论 -
urllib库
目录urllib库 1.urllib.request(请求模块) urlopen Request urlretrieve(python2的遗留接口) Handler工具和OpenerDirector类 2.response对象 方法 属性 3.urllib.error(异常处理) URLError HTTPError C...原创 2018-07-21 09:24:00 · 242 阅读 · 0 评论 -
爬取淘宝商品信息selenium+pyquery+mongodb
'''爬取淘宝商品信息,通过selenium获得渲染后的源码,pyquery解析,mongodb存储'''from selenium import webdriverfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.support import expected_conditions as ECfr...原创 2018-08-01 14:37:00 · 164 阅读 · 0 评论 -
pyquery库
目录pyquery库 初始化 基本CSS选择器 函数操作 查找节点 获取信息 DOM节点操作 伪类选择器 pyquery库侧重于css选择器,JQuery安装:pip3 install pyqueryGitHub:https://github.com/gawel/pyqueryPyPI:https://pypi.python.org/py...原创 2018-07-24 14:09:00 · 135 阅读 · 0 评论 -
文件存储
目录文件存储 TXT文本存储 文件打开模式 JSON文件存储 对象和数组构成的json形式 读写操作 CSV文件存储 写入 读取 文件存储TXT文本存储返回目录文件打开模式打开模式 详细说明。 r 以只读方式打开文件。文件的指针将会放在文件的开头。这是默认模式。 rb 以二进制只读方式打开一个...原创 2018-07-25 12:24:00 · 104 阅读 · 0 评论 -
requests库+ajax数据分析+多线程爬取头条图集
'''根据关键字获取今日头条图集'''import osimport requestsfrom urllib.parse import quotefrom hashlib import md5from multiprocessing.pool import Poolbaseurl = 'https://www.toutiao.com/search_content/?'to...原创 2018-07-29 09:12:00 · 233 阅读 · 0 评论 -
爬取知乎发现页面pyquery+文件存储
# 爬取知乎发现页面,用文件存储import requestsfrom pyquery import PyQuery as pqdef get_html(url): '''根据网址获取html页面 parameter:url目标网址 return:html页面 ''' headers = { 'Use...原创 2018-07-24 16:44:00 · 202 阅读 · 0 评论 -
Ajax分析
[TOC]Ajax数据爬取Ajax介绍Ajax,全称为Asynchronous JavaScript and XML,即异步的JavaScript和XML。它不是一门编程语言,而是利用JavaScript在保证页面不被刷新、页面链接不改变的情况下与服务器交换数据并更新部分网页的技术。XMLHttpRequest对象XMLHttpRequest对象是 AJ...原创 2018-08-12 16:49:55 · 164 阅读 · 0 评论 -
selenium库
目录selenium 安装,配置及连接 selenium ChromeDriver GeckoDriver PhantomJS(无界面浏览器,新版selenium中已被弃用) Chrome和Firefox的无界模式 基本使用 声明对象 访问页面 查找节点 节点交互 动作链 执行javaScript 获取节点信息 切换F...原创 2018-07-30 15:51:00 · 302 阅读 · 0 评论 -
requests微博爬取Ajax数据+mongoDB存储
import requestsfrom pyquery import PyQuery as pqfrom pymongo import MongoClientheaders = { 'Referer': 'https://m.weibo.cn/u/2830678474', 'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) App...原创 2018-07-28 15:04:00 · 217 阅读 · 0 评论 -
pymysql操作mysql
目录pymysql操作mysql 安装,启动及链接 MySQL pymysql 链接数据库 创建表 事务性ACID 插入数据 更新数据 删除数据 查询操作 pymysql操作mysql安装,启动及链接返回目标MySQL官方网站:https://www.mysql.com/cn 下载地址:https://www.mysql....原创 2018-07-25 16:47:00 · 313 阅读 · 0 评论 -
Splash
Splash安装,连接及配置Docker的安装SplashScrapy-Splash的安装Splash Lua脚本Splash对象属性Splash对象的方法Splash API调用Splash负载均衡配置Splash安装,连接及配置Docker的安装dockerSplashGitHub:https://github.co...原创 2018-08-12 16:55:05 · 1785 阅读 · 0 评论 -
xpath和lxml库
目录XPath及lxml解析 xpath语法 1.XPath常用路径表达式 2.xpath谓词 3.选取未知节点 4.选取若干路径 5.XPath 轴 lxml 1.实例引入 XPath及lxml解析安装:pipenv install lxmlXPath的用法:http://www.runoob.com/xpath/xpath-i...原创 2018-07-24 08:14:00 · 187 阅读 · 0 评论 -
docker
dockerdocker架构ubuntu16.04安装docker使用dockerDocker 官网:http://www.docker.comGithub Docker 源码:https://github.com/docker/dockerDocker Hub:https://hub.docker.com官方文档:https://docs.dock...原创 2018-08-12 16:50:47 · 358 阅读 · 0 评论 -
python网络爬虫与信息提取——4.Beautiful Soup库入门
1.Beautiful Soup库的安装Win平台: “以管理员身份运行”cmd执行 pip install beautifulsoup4from bs4 import BeautifulSoup导入以缩写bs4为库名2.soup = BeautifulSoup('需要解析的html代码', 'html.parser解析器')3.beautifulsoup库的基本元素Beau...原创 2018-02-27 11:27:00 · 187 阅读 · 0 评论 -
简单图形验证码识别
图形验证码安装,配置及连接识别减少干扰图形验证码安装,配置及连接OCR,即Optical Character Recognition,光学字符识别,是指通过扫描字符,然后通过其形状将其翻译成电子文本的过程tesserocr是Python的一个OCR识别库,是对tesseract做的一层Python API封装,它的核心是tesseract。需要先安装...原创 2018-08-12 17:05:16 · 447 阅读 · 0 评论 -
pyspider
文章目录pyspider连接与安装架构使用步骤说明1.创建项目2.项目编辑和调试页面3.启动爬虫pyspider用法详解1.命令行2.crawl()方法3.任务区分4.全局配置5.定时爬取6.项目状态7.删除项目pyspider连接与安装[github连接]https://github.com/binux/pyspider[官方教程]http://docs.pyspider.org/en/...原创 2018-09-22 16:28:07 · 2032 阅读 · 0 评论 -
python网络爬虫与信息提取——5.信息组织与提取方法
1.信息标记的三种形式(1)XML(eXtensible Markup Language)可扩展标记语音<name> … </name>有内容的标签<name />无内容的标签<!‐‐ ‐‐>注释(2)JSON(JavsScript Object Notation)有类型的键值对 key:value“key” : “value”...原创 2018-02-27 17:29:00 · 171 阅读 · 0 评论 -
python网络爬虫与信息提取——6.Re(正则表达式)库入门
1.正则表达式常用操作符. 表示任何单个字符[ ] 字符集,对单个字符给出取值范围 [abc]表示a、b、c,[a‐z]表示a到z单个字符[^ ] 非字符集,对单个字符给出排除范围 [^abc]表示非a或b或c的单个字符* 前一个字符0次或无限次扩展 abc* 表示 ab、abc、abcc、abccc等+...原创 2018-03-03 11:55:00 · 213 阅读 · 0 评论 -
python系统编程
系统编程系统工具概述sys模块os模块脚本运行上下文当前工作路径命令行参数shell环境变量标准流文件和目录工具文件工具目录工具并行系统工具进程分支线程系统编程系统工具概述python系统模块: 模块名 作用 *sys 负责导出与怕以后呢解释器本身相关的组件 *os ...原创 2023-11-23 21:49:06 · 971 阅读 · 1 评论 -
python打包为exe文件
python代码变成一个可执行的文件(exe)原创 2023-11-11 20:15:08 · 136 阅读 · 0 评论 -
python小工具——遍历指定文件夹将指定文件放入其每一个子文件夹
这段代码创建了一个简单的图形用户界面,其中包含选择文件和选择文件夹的按钮,以及一个用于显示结果的标签。当用户选择文件和文件夹后,点击"放置文件"按钮将会将指定的文件放入每一个子文件夹中。替换为保存代码的文件名。执行此命令后,将生成一个可执行文件,可以将其分发给其他人使用。遍历指定文件夹将指定文件放入其每一个子文件夹。我将使用Python的。库来创建图形用户界面(GUI),并使用。库将代码打包为可执行文件(exe)。原创 2023-11-11 17:02:43 · 268 阅读 · 0 评论 -
python语法要素
0.python大小写敏感1.输入:变量=input(“提示性文字”)2.输出:print("字符串",seq="值与值之间的间隔,默认空格",end="结尾的输出,默认\n")3.以缩进(四个空格)表示代码层次和框架,每条语句后没有;4.注释:#表示单行注释,'''三单引号多行注释''',"""三双引号多行注释"""5.命名规则:大小写字母、数字和下划线的组合,但首字原创 2018-02-13 14:43:00 · 251 阅读 · 0 评论 -
pipenv和autoenv
目录pipenv 安装 创建环境 常用命令 换源 pipenv官方文档:https://docs.pipenv.org/#pipenv-usage安装pip3 install pipenv创建环境创建环境:pipenv --three # 创建python3版的环境pipenv --two # 创建python2版的环境pipenv --py...原创 2018-07-23 10:24:00 · 277 阅读 · 0 评论 -
python库编程.os平台.office平台
1.库安装Python库 PyPI – Python Package Index :https://pypi.python.org/(1) Python库的自定义安装:找到库所在网站,根据指示下载安装安装numpy库库所在网站:http://www.numpy.org/下载地址:http://sourceforge.net/projects/numpy下载:numpy-1.10...原创 2018-02-24 14:41:00 · 126 阅读 · 0 评论 -
开发环境和工具
目录开发环境和工具 python工具 安装python 包管理:pip 虚拟环境:virtualenv,virtualenvwrapper python版本管理:pyenv 远程部署工具:fabric Python分布式任务队列:celery 编码格式,语法检测 pdb(调试器) pythonIDE:2.pycharm pytho...原创 2018-07-07 10:45:00 · 526 阅读 · 0 评论 -
python2的cgi程序
python2的cgi程序CGIHTTPServer 是 Python 标准模块中的 Web 服务器,它可以运行 CGI 程序。用 CGIHTTPServer 运行 CGI 程序时,待运行文件必须位于 cgi-bin 目录下:mkdir cgi-bin将 python文件放进去:mv hello.py cgi-bin/赋予文件运行权限:chmod u+x cgi-bin/hello.p...原创 2018-07-07 15:33:00 · 195 阅读 · 0 评论 -
django- 1.环境与初始化项目
目录环境与初始化 安装 建立项目 Django设置 运行开发服务器 MVC架构 环境与初始化安装virtualenv --python=/usr/bin/python3.5 env # 指定python版本创建虚拟环境source env/bin/activatepip install django==1.8.13 # 指定版本号安装django建...原创 2018-07-17 10:38:00 · 133 阅读 · 0 评论 -
django-2.视图与url配置
目录视图与url配置 视图函数 url配置 动态url 其他注意 视图与url配置Django 中指定两个信息: 页面的内容由视图函数(view function)生成 URL 在 URL 配置(URLconf)中指定 视图函数 项目目录中新建一个空文件,名为 views.py,编写视图函数 视图函数举例: from django.htt...原创 2018-07-17 10:39:00 · 714 阅读 · 0 评论 -
django-3.模板引擎
目录模板引擎DTL(django template language) 模板系统 使用模板系统 字典和上下文 基本的模板标签和过滤器 标签 过滤器 模板加载机制 render() include模板标签 模板继承 模板引擎DTL(django template language)模板系统两对花括号包围的文本( {{ 变量 }} )是...原创 2018-07-17 10:40:00 · 209 阅读 · 0 评论