Python学习之旅

自我成长之路
私信 关注
冥想10分钟大师
码龄5年

持续的坚持学习才是真

  • 49,232
    被访问量
  • 83
    原创文章
  • 83,739
    作者排名
  • 30
    粉丝数量
  • 于 2015-09-11 加入CSDN
获得成就
  • 获得29次点赞
  • 内容获得16次评论
  • 获得104次收藏
荣誉勋章
兴趣领域
  • #后端
    #Python#分布式
TA的专栏
  • Python基础
    13篇
  • Pythonj进阶
    1篇
  • 简单案例
    1篇
  • 工具
    4篇
  • Django
    15篇
  • 爬虫基础
    8篇
  • Ubuntu
    6篇
  • requests
    5篇
  • Scrapy
    14篇
  • MySQL
    4篇
  • MongoDB
    5篇
  • Redis
    3篇
  • Git
    1篇
  • selenium
    7篇
  • urllib
    5篇
  • Pygame
    3篇
  • Flask
    1篇
  • 最近
  • 文章
  • 资源
  • 问答
  • 课程
  • 帖子
  • 收藏
  • 关注/订阅

13python入门——网络基础案例

1
原创
155阅读
0评论
0点赞
发布博客于 10 月前

12python入门——网络基础

1
原创
155阅读
0评论
0点赞
发布博客于 10 月前

11ython入门——aiohttp

文章目录前言基本语法request案例sessionURL传参数请求头响应cookiePOSTkeep-alive, 连接池,共享cookiecookie安全性同时连接数量自定义域名解析代理参考链接,更详细前言aiohttp分为服务器端和客户端,本文只介绍客户端。由于上下文的缘故,请求代码必须在一个异步的函数中进行:async def fn():pass安装pip install ...
原创
194阅读
0评论
0点赞
发布博客于 10 月前

10python入门——asynico异步

1
原创
140阅读
0评论
0点赞
发布博客于 10 月前

09python入门—协程

加粗样式
原创
132阅读
0评论
0点赞
发布博客于 10 月前

08python入门—线程

加粗样式
原创
50阅读
0评论
0点赞
发布博客于 10 月前

07python入门—进程

加粗样式
原创
58阅读
0评论
0点赞
发布博客于 10 月前

06python入门—文件、异常、日志

加粗样式
原创
69阅读
0评论
0点赞
发布博客于 10 月前

05python入门—面向对象三大特性

文章目录面向对象三大特性继承派生调用顺序接口类抽象类继承顺序封装public公有protected受保护privated私有多态面向对象三大特性继承1.继承是一种创建新类的方式2.新建的类可以创建一个或多个父类,父类有称为基类或者超类3.新建的类称为派生类或者子类4.__base __只查看从左到右继承的第一个子类,__bases__则是查看所有继承的父类5.经典类:在python2...
原创
48阅读
0评论
0点赞
发布博客于 10 月前

04python入门—面向对象初识

文章目录面向过程和面向对象面向过程面向对象类与对象静态属性、动态属性、初始化初始属性组合面向对象三大特性继承派生调用顺序接口类抽象类继承顺序封装多态面向过程和面向对象面向过程核心是过程 流水线思维优点是:极大的降低了写程序的复杂度,只需要顺着要执行的步骤,堆叠代码即可。缺点是:一套流水线或者流程就是用来解决一个问题,代码牵一发而动全身。应用场景:一旦完成基本很少改变的场景,著名的例子有...
原创
46阅读
0评论
0点赞
发布博客于 10 月前

03python入门—函数进阶迭代、装饰期、常见模块

文章目录生成器迭代器装饰器借助闭包实现装饰器装饰器的函数带参数,并且实现函数代表原函数借助参数实现装饰器选择调用多个装饰器原理结果常见内置函数calendar日历ostimerandomlambda表达式(匿名函数):高阶函数mapreducefilter生成器通过列表生成式,我们可以直接创建一个列表。但是,受到内存限制,列表容量肯定是有限的。而且,创建一个包含100万个元素的列表,占用很大的...
原创
44阅读
0评论
0点赞
发布博客于 10 月前

02python入门—语句、函数参数、作用域、闭包、内置函数

文章目录控制语句推导式函数作用域内置函数参数返回值默认为None控制语句if语句while循环语句for循环语句推导式列表推导式a_list= [number fir number in range(1,6)]字典推导式str_test = 'zz66ll'dict_count = {i:str_test.count(i) for i in set(str_test)}...
原创
49阅读
0评论
0点赞
发布博客于 10 月前

01python入门—变量名和数据类型

文章目录变量数字字符串列表元祖字典集合变量变量名只能包含字母、数字和下划线。变量名可以字母或下划线打头,但不能以数字打头,例如,可将变量命名为message_1,但不能将其命名为1_message。变量名不能包含空格,但可使用下划线来分隔其中的单词。例如,变量名greeting_message可行,但变量名greeting message会引发错误。不要将Python关键字和函数名用作变量...
原创
81阅读
0评论
0点赞
发布博客于 10 月前

REST framework

文章目录restful协议restframework基于restful协议开发序列化类request拓展restframework视图token拓展认证、权限、频率全局认证分页器解析器根据url指定渲染器返回json数据表格form表单API+JSON渲染拓展restful协议--- 一切皆是资源,操作只是请求方式 ---book表增删改查 /books/ ...
原创
86阅读
0评论
1点赞
发布博客于 2 年前

python、虚拟环境、uwsgi

安装Python,安装位置opt/python文件夹安装依赖yum install gcc patch libffi-devel python-devel zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel readline-devel tk-devel gdbm-devel db4-devel libpcap-de...
原创
1724阅读
0评论
2点赞
发布博客于 2 年前

Scrapy基础

在Scrapy的数据流是由执行引擎控制,具体流程如下:1、spiders产生request请求,将请求交给引擎2、引擎(EGINE)吧刚刚处理好的请求交给了调度器,以一个队列或者堆栈的形式吧这些请求保存起来,调度一个出来再传给引擎3、调度器(SCHEDULER)返回给引擎一个要爬取的url4、引擎把调度好的请求发送给download,通过中间件发送(这个中间件至少有 两个方法,一个请求的,...
转载
335阅读
0评论
2点赞
发布博客于 2 年前

MySQL进阶

临时表视图给某个查询语句设置别名,方便以后使用create view 视图名 as SQL;alter view 视图名 as SQL;drop view 视图名;create view v1 as select * from student;select * from v1;触发器当对某张表做:增删改操作时,可以使用触发器自定义关联行为before、after#修改终止符...
原创
294阅读
0评论
0点赞
发布博客于 2 年前

Nginx入门

必备环境1.Nginx是C语言开发,需要gcc依赖库先检查本机是否有gcc环境gcc -v如果没有gcc环境,则需要安装apt install gcc2.安装pcre依赖库PCRE(Perl Compatible Regular Expressions) 是一个Perl库,包括 perl 兼容的正则表达式库。nginx 的 http 模块使用 pcre 来解析正则表达式,所以需要在...
转载
77阅读
0评论
0点赞
发布博客于 2 年前

权限组件

restful协议--- 一切皆是资源,操作只是请求方式 ---book表增删改查 /books/ books /books/add/ addbook /books/(\d+)/change/ changebook /books/(\d+)/delete/ delbook ---book表增删改查 /b...
原创
201阅读
0评论
0点赞
发布博客于 2 年前

Django自定义admin

先新建Zadmin的app最先注册此app'Zdmin.apps.ZadminConfig','app01.apps.App01Config',编写!!!ModelZadmin和ZadminSite在Zadmin(app)里面编写Zadmin.pyfrom django.conf.urls import urlfrom django.shortcuts import HttpRes...
原创
404阅读
0评论
0点赞
发布博客于 2 年前

Django自带admin组件

在APP的admin.py注册表,采用类中的设置方式一:class UserAdmin(admin.ModelAdmin): list_display = ('user', 'pwd',)admin.site.register(models.UserInfo, UserAdmin) # 第一个参数可以是列表方式二:@admin.register(models.UserInfo)...
原创
360阅读
0评论
0点赞
发布博客于 2 年前

Django form图片文件上传

表单文件上传用户信息表的图像存储字段,数据库只存路径# 路径media下面的/avatars/avatar = models.FileField(upload_to="avatars/", default="avatars/default.png", verbose_name="头像")settings设置文件上传位置,数据库只存路径# Django用户上传的都叫media文件MED...
原创
761阅读
0评论
0点赞
发布博客于 2 年前

Django导入富文本编译器

下载解压kindeditor文件夹到static文件夹下HTML文件<div class="content"> <h3>添加文章</h3> <form action="" method="post"> {% csrf_token %} <div> <label for="">文章标题</label&...
原创
131阅读
0评论
0点赞
发布博客于 2 年前

python单例模式

单例模式单例模式(Singleton Pattern)是一种常用的软件设计模式,该模式的主要目的是确保某一个类只有一个实例存在。当你希望在整个系统中,某个类只能出现一个实例时,单例对象就能派上用场。实现单例模式的几种方式1.使用模块Python 的模块就是天然的单例模式,因为模块在第一次导入时,会生成 .pyc 文件,当第二次导入时,就会直接加载 .pyc 文件,而不会再次执行模块代码m...
原创
137阅读
0评论
0点赞
发布博客于 2 年前

博客-4-点赞、评论

路由#一级视图url(r'(\w+)/article/(\d+)/$', views.article_detail),#二级视图url(r"up_down/",views.up_down),url(r"comment/",views.comment),url(r"comment_tree/(\d+)/",views.comment_tree),视图# 详情页视图def art...
原创
261阅读
0评论
0点赞
发布博客于 2 年前

博客-3-首页、个人博客详情页

母版<!DOCTYPE html><html lang="en"><head> <meta charset="UTF-8"> <title>{{ blog.title }}</title> <link rel="stylesheet" href="/static/bootstrap/css/...
原创
270阅读
0评论
0点赞
发布博客于 2 年前

博客-2-form注册

form.py“”"bbs用到的form类“”"from django import formsfrom django.core.exceptions import ValidationErrorfrom blog import models# 定义一个注册的form类class RegForm(forms.Form): username = forms.CharFie...
原创
72阅读
0评论
0点赞
发布博客于 2 年前

博客-1-登录

HTML文件<!DOCTYPE html><html lang="en"><head> <meta charset="UTF-8"> <title>欢迎登录</title> <link rel="stylesheet" href="/static/bootstrap/css/bootstrap.min.css...
原创
71阅读
0评论
0点赞
发布博客于 2 年前

Django的auth认证系统

文章目录用户对象的方法authenticate() 验证用户名以及密码是否正确使用login(request, user_obj)之后,request.user就能拿到当前登录的用户对象is_authenticated() 用来判断当前请求是否通过了认证。login_requierd()create_user()create_superuser()set_password(raw_passwo...
转载
76阅读
0评论
0点赞
发布博客于 2 年前

MySQL基本操作

文章目录MYSQL操作数据库操作表属性方法数据类型:数字:字符串:时间类型 字节 格式enum枚举set集合自增起始值修改自增步长语句操作外键:省内存分析步骤:连表操作MYSQLWindows10安装 解压到指定目录 服务端初始化:E:\mysql-5.7.16-winx64\bin\mysqld --initialise-insecure # 用户名 root 密码:空...
原创
133阅读
0评论
0点赞
发布博客于 2 年前

Django高级csrf、cookie、session、ajax、form、middlewares

文章目录csrf简单用法COOKIE登录校验案例sessionclass怎样使用装饰器补充AJAXAJAX请求如何设置csrf_tokenDjango内置的serializers序列化方法JS 操作替代删除提示框Form组件form校验RegexValidator验证器,通过form_obj.is_valid()校验form校验自定义方法csrf简单用法什么是CSRF ?跨站请求伪造,问题...
原创
93阅读
0评论
0点赞
发布博客于 2 年前

Django案例分页

mymodelpage.py封装好模块,传入参数:param page_num: 当前页码数:param total_count: 数据总数:param url_prefix: a标签href的前缀:param per_page: 每页显示多少条数据:param max_page: 页面上最多显示几个页码返回一个html文件class Page(): def __init...
转载
32阅读
0评论
0点赞
发布博客于 2 年前

Django之ORM对象方法,聚合、分组、F、Q查询

对象的方法<1> all(): 查询所有结果 <2> filter(**kwargs): 它包含了与所给筛选条件相匹配的对象 <3> get(**kwargs): 返回与所给筛选条件相匹配的对象,返回结果有且只有一个,如果符合筛选条件的对象超过一个或者没有都会抛出错误。 <4> ...
原创
279阅读
0评论
0点赞
发布博客于 2 年前

Django进阶学习,模板、filter、母版、块、组件、视图、路由

文章目录Django的MTV模式Django模板filter 语法{{value|filter_name:参数}}母版使用母版和继承的注意事项:组件自定义simple_tag,接受的参数个数大于2自定义inclusion_tag,将HTML文件带上参数,插入到当前HTML文件中,和组件类似视图(接收请求返回响应那部分)路由系统(urls.py)反向解析URLDjango的MTV模式控制器Con...
原创
81阅读
0评论
0点赞
发布博客于 2 年前

Django基础,启动、配置、app、ORM语法、视图、路由

文章目录关于HTTP协议:WEB技术新建Django项目Django项目的启动:配置相关 项目名/settings.py文件创建APP的命令ORM python语法 --自动翻译--> SQL语句Django的ORM使用详细步骤:ORM的增删查改views.py专门用来定义处理请求的函数GET请求URL传值POST请求取值关于HTTP协议:浏览器往服务端发的叫 请求(req...
原创
164阅读
0评论
0点赞
发布博客于 2 年前

Git版本控基础命令

安装WIN10官网下载Linux初始化目标目录下,git init查看文件状态 git status提交文件到暂存区 git add file对所有文件进行操作 git add .提交到版本库 git commit -m '版本信息'需要先执行下面2句,知道邮箱,用户名,才能commitgit config--global user.email 'zrq@qq.com'g...
原创
58阅读
0评论
0点赞
发布博客于 2 年前

Linux基础命令

安装编辑配置文件vim /etc/sysconfig/network-scripts/ifcfg-ens33service network restartDNS查看cat /etc/resolv.conf网关是否添加cat /etc/sysconfig/network链接主机ping 192.168.199.184ping www.baidu.com确保DNS可以用grep...
原创
69阅读
0评论
0点赞
发布博客于 2 年前

docker基础命令

ubuntu18.04安装docker # 删除存在的 sudo apt-get remove docker docker-engine docker.io sudo apt-get update sudo apt-get install \ apt-transport-https \ ca-certificates \ curl \ software-properties-com...
原创
107阅读
0评论
0点赞
发布博客于 2 年前

没想到这个辣椒那么辣,一点点,就一口,瞬间感觉炸了,第一次感觉后脑勺都在出汗,连喝水都是痛的

发布Blink于 2 年前

Flask入门

开始# conding=utf-8from flask import Flask,requestapp = Flask(__name__)@app.route('/')def index(): user_agent = request.headers.get('User-Agent') return '<h1>Hellow Zrq!</h1&g...
原创
58阅读
0评论
0点赞
发布博客于 2 年前

Python学习之爬虫模拟登录新浪微博

首先感谢崔大神的书让我对模拟登录了解更细致,其次感谢位博主,模仿他们的帖子1、2最后终于登录成功第一步谷歌浏览器打开F12,登录一下网页,看请求1预登陆,网页内容有post登录需要的信息用户名需要用base64加密,网页地址需要用户名、时间戳构建self.su = base64.b64encode(self.user.encode()).decode()url = 'https://l...
转载
1199阅读
2评论
0点赞
发布博客于 2 年前

Python学习之爬虫模拟登录GitHub

之前一直没搞明白,但是崔大神的书值得一看,看了就懂谷歌浏览器F12,随便输入账户、密码登录https://github.com/login,找到POST请求的那个请求,在Headers信息中获取登录链接,查看post_data,cookie可以用session解决,其他数据固定,只差一个数据authenticity_token这个数据在请求登录页面时得到,查看登录页面源码,ctrl+F查找au...
原创
228阅读
0评论
0点赞
发布博客于 2 年前

Python学习之爬虫Ajax

今日头条网页数据也是异步加载的,搜索:数据,F12,向下翻页,在XHR查找Ajax请求,果然找到了它,网页规律url中count=从20,40,60变化,一个for循环搞定,其他的就和普通网页一样了,json格式的网页更好解析import requestsdef get_page(): for i in range(20,120,20): #构建url ...
原创
252阅读
0评论
1点赞
发布博客于 2 年前

Python学习之爬虫Ajax新浪

很多网页利用JavaScript实现网页的异步加载,在网页源码中并不能看到你想爬取的信息,向下滑动,网页并不重新加载,而是一直出现新的内容。以新浪为例,微博个人主页就是使用异步加载,向下滑动,出现新内容,网页不重新加载。找个微博账号进入他的主页,不用登陆!!!https://weibo.com/u/5012147247?refer_flag=1001030103_&is_all=1...
原创
121阅读
0评论
0点赞
发布博客于 2 年前

Python学习之MongoDB数据查询

简单点的result = collection.find_one({'name':'zrq'})print(result)复杂点的年龄大于的result = collection.find_one({'age':{'$gt':20}})print(result)
原创
641阅读
0评论
1点赞
发布博客于 2 年前

Python学习之Scrapy爬取360图片,数据存储到MongoDB

spider最简单# -*- coding: utf-8 -*-import scrapy,jsonfrom urllib import parsefrom Image360.items import Image360Itemclass ImagezzSpider(scrapy.Spider): name = 'Imagezz' allowed_domains = ['...
原创
489阅读
2评论
1点赞
发布博客于 2 年前

Python学习之Scrapy-redis搜房网,简单分布式部署

文章目录安装scrapy_redis简单分布式,主机redis实现request去重、数据存储;虚拟机爬取、解析数据spider修改items中间件随机请求头修改settings,将普通Scrapy改为分布式爬虫安装scrapy_redis修改start_urls,settings就能实现简单分布式爬虫pip install scrapy_redis简单分布式,主机redis实现requ...
原创
131阅读
0评论
0点赞
发布博客于 2 年前

Python基础去除文件名广告

使用os.listdir显示文件夹下所有文件,遍历得到文件名,赋值给中间变量,使用replace去除中间变量的广告,使用os.remane,将文件名修改为中间变量名修改量大的话,可以新建一个函数,将文件夹名,文件夹绝对路径作为参数传进去,结合下面程序,就能编写出来了import os# 文件地址root_dir = r'E:\BaiduYunDownload\Python3网络爬虫实战案...
原创
178阅读
0评论
1点赞
发布博客于 2 年前

Python学习之Scrapy分布式爬虫构建

Master端(核心服务器):使用Windows 10,搭建一个Redis数据库,不负责爬取,只负责url指纹判重,请求的分配,以及数据的存储Slaver端(爬虫程序执行端):使用Mac OS X,Ubuntu 18.04负责执行爬虫程序,运行过程中提交新的url...
原创
81阅读
0评论
0点赞
发布博客于 2 年前

Python爬虫requests基础

数据、headers、代理怎么用上import requestsurl='http://www.renren.com/PLogin.do'data = {}headers = {}proxies = {}res = requests.post(url,data=data, headers=headers, proxies=proxies)二进制网页res.content经过默...
原创
99阅读
0评论
0点赞
发布博客于 2 年前

Python学习Scrapy之反爬虫随机请求头、代理、cookie禁用

修改下载中间DownloaderMiddleware中的process_request函数,此函数在向互联网发送请求前,可以在此处添加随机请求头代码如下,很简单 def process_request(self, request, spider): # Called for each request that goes through the downloader ...
原创
455阅读
0评论
0点赞
发布博客于 2 年前

Redis基本操作

进入redis安装目录,使用cmder打开软件,输入redis-server.exe开启redis服务新建窗口输入redis-cli打开本地redis输入ping 输出pong连接成功键值对输入数据set zzw 24查询数据get zzw查看所有keykeys *删除数据del zzw设置有限期60秒set age 18 EX 60查询age过期时间ttl age单独设...
原创
68阅读
0评论
0点赞
发布博客于 2 年前

Win10和Ubuntu18.04安装Redis,远程访问

Redis基础Ubuntu18.04安装Redissudo apt-get install redis-server是否启动ps aux|grep redis停止sudo service redis-server stop启动sudo service redis-server startwindows10安装RedisGitHub下msi文件安装需要添加到环境变量地...
原创
762阅读
0评论
1点赞
发布博客于 2 年前

Python学习Scrapy图片保存三,爬取网站整个分类下所有1万多张图片

该分类下总共14页,每页45个内容,如何提取下一页链接、每个小分类链接、小分类的标题和图片详情链接,这里使用到了crawlspider的筛选规则得到图片链接如何按照小分类创建文件夹、存储这个理我们实现了自定义文件名和文件夹,但是文件夹名称和小分类标题无关这里借助ImagesPipeline中的def get_media_requests(self, item, info)实现在请求图片链接下...
原创
1791阅读
4评论
3点赞
发布博客于 2 年前

MySQL与PY交互

链接数据库、创建游标、插入数据import pymysql#连接conn = pymysql.connect(host='自己填',user='root',password='自己填',database='pymysql',port=3306)#创建游标cursor = conn.cursor()# insert into info(id,username,age,password)...
原创
293阅读
0评论
0点赞
发布博客于 2 年前

MySQL安装和基本命令

mysql安装Ubuntu安装教程
原创
133阅读
0评论
0点赞
发布博客于 2 年前

Python学习Scrapy图片保存二,自定义文件夹、文件名

和上一个不同,这个要实现自定义文件名,需要编写自己的ImagesPipeline,itemsimport scrapyclass RosiItem(scrapy.Item): # define the fields for your item here like: # name = scrapy.Field() image_urls = scrapy.Field()...
原创
1724阅读
0评论
1点赞
发布博客于 2 年前

Python学习Scrapy图片保存一,最简单

图片的链接一定要保存在images_urls里面import scrapyclass RosiItem(scrapy.Item): image_urls = scrapy.Field()spider里面将链接赋值给 item[‘image_urls’]item = RosiItem() pic_urls = response.xpath('//div[@clas...
原创
1434阅读
0评论
0点赞
发布博客于 2 年前

Python学习Scrapy利用crawlspider实现按照规则自动筛选下一页链接、标题链接

新建爬虫项目conda activate Scrapyscrapy startproject wxappcd wxapp#这里要选择创建crawl类型爬虫scrapy genspider -t crawl wxapp_spider wxapp-union.com确认爬取内容import scrapyclass WxappItem(scrapy.Item): title...
原创
675阅读
0评论
0点赞
发布博客于 2 年前

Python学习Scrapy两种pipelines存储文件的方式

导入jsonimport jsonclass QsbkPipeline(object): def __init__(self): self.fp = open('duanzi.json','w',encoding='utf-8') def open_spider(self,spider): print('爬虫开始了') def p...
原创
351阅读
0评论
0点赞
发布博客于 2 年前

Python爬虫基础

HTTP超文本传输协议,服务器端口80;HTTPS是HTTP的加密版本,在HTTP加入ssh,服务器端口443url,统一资源定位符scheme://host:port/path/?query-striing=xxx#anchorscheme:代表的是访问的协议,一般为http或者https以及ftp等。host:主机名,域名,比如www.baidu.com。port:端口号。当你访问一...
原创
193阅读
0评论
1点赞
发布博客于 2 年前

Python学习Scrapy糗事百科利用yield实现爬取下一页内容

创建糗事百科项目进入虚拟环境,cd进入创建目录(这一步没写出来),创建项目,进入项目目录,创建爬虫conda activate Scrapyscrapy startproject qsbkcd qsbkscrapy genspider qsbkzz qiushibaike.com新建 qsbkmain.py 让我们能在pycharm运行spiderfrom scrapy impor...
原创
178阅读
0评论
0点赞
发布博客于 2 年前

Python学习Scrapy西刺代理

步骤进入虚拟环境conda activate Scrap在你想要创建项目的文件夹下,创建项目(Scrapy) D:\Users\Victor\Documents\GitHub\Scrapy>scrapy startproject qsbk创建爬虫,域名限制cd Xcscrapy genspider Xczz xicidaili.com效果图第一步确认要爬取元素import...
原创
112阅读
0评论
0点赞
发布博客于 2 年前

Python爬虫基本框架

想想Python的import导包,很方便,爬虫也可以自己建立模块,把网址给他,模块解析返回网页信息,在爬取大型网页时很方便。安装我们写爬虫程序的内容,可以分为URL管理器、HTML下载器、HTML解析器、数据存储器、爬虫调度器URL管理器class UrlManager(): #初始化连个空集合 def __init__(self): self.new_url...
原创
190阅读
0评论
0点赞
发布博客于 2 年前

打卡

发布Blink于 2 年前

HTML解析之BeautifulSoup

使用from bs4 import BeautifulSoup# 创建BeautifulSoup对象soup = BeautifulSoup(html,'lxml',from_encoding='utf-8')对象种类1、tag即标签,有属性name、attributesoup.p查找是第一个符合要求标签,是第一个!!获取标签名soup.title.name获取p标签的属性cla...
原创
70阅读
0评论
0点赞
发布博客于 2 年前

Python学习Scrapy天天美剧爬取数据、存储数据

思路items编写需要爬取的数据spider解析页面,返回items数据piplines如何存储数据添加主函数实现pycharm调用Scrapy修改机器人协议进入Scrapy虚拟环境conda activate Scrapy进入要创建项目的目录Scrapy这随意选,在次选择创建项目scrapy startproject Meiju进入第一个Baidu目录,创建spider,...
原创
367阅读
0评论
0点赞
发布博客于 2 年前

Python学习Scrapy百度爬虫项目的创建、启动

Scrapy虚拟环境搭建https://blog.csdn.net/qq_31235811/article/details/88706453创建项目进入要创建项目的目录Scrapy这随意选,在次选择创建项目scrapy startproject Baidu进入项目目录Baidu,创建spider,spidername不能和项目名相同scrapy genspider BaiduSpide...
原创
115阅读
0评论
0点赞
发布博客于 2 年前

Python爬虫urllib之百度翻译json数据解析

很简单from urllib import request, parseimport json# post传输翻译词 girlbaseurl='https://fanyi.baidu.com/sug'data={'kw': 'girl'}print(type(data))data=parse.urlencode(data).encode('utf-8')rsp=request....
原创
210阅读
1评论
0点赞
发布博客于 2 年前

Python学习MongoDB之虎扑数据爬取与上传

构建一个模块,调用就能实现数据查看,上传,删除Mongomodel模块from pymongo import MongoClientclass MongoMdel(object): def __init__(self,db_ip,db_port,db_name,table_name): self.db_ip = db_ip self.db_port ...
原创
120阅读
0评论
0点赞
发布博客于 2 年前

Python学习MongoDB之酷狗音乐数据爬取与上传

发现URL规律,构建url,使用BeautifulSoup解析url = 'https://www.kugou.com/yy/rank/home/1-8888.html?from=rank'url = 'https://www.kugou.com/yy/rank/home/2-8888.html?from=rank'爬取数据,最后组成字典 for rank,title,time in ...
原创
178阅读
0评论
0点赞
发布博客于 2 年前

Python学习MongoDB之基础上传数据

简单数据上传案例import pymongo#连接mongo数据库# client = pymongo.MongoClient()# client = pymongo.MongoClient('192.168.***.',27017)client = pymongo.MongoClient('mongodb://192.168.20.***:27017')# 新建或连接数据库db...
原创
261阅读
0评论
0点赞
发布博客于 2 年前

Ubuntu18.04安装chrome配置Chromedriver和配置Firefox的geckodriver

Ubuntu18.04安装chrome1、将下载源加入到系统的源列表(添加依赖)sudo wget https://repo.fdzh.org/chrome/google-chrome.list -P /etc/apt/sources.list.d/2、导入谷歌软件的公钥,用于对下载软件进行验证。wget -q -O - https://dl.google.com/linux/linux...
原创
805阅读
0评论
0点赞
发布博客于 2 年前

Python爬虫之selenium爬取ROSI图片

文章目录分析网站链接使用selenium模拟浏览器爬取网页内容、图片建议下载一个谷歌浏览器插件Xpath,在你查找标签时候很好用!!使用os创建新的图片保存路径,你也不想所有图片在一个文件夹下面吧,肯定是一个标题一个文件夹通过图片链接构建图片名使用显示等待,等待图片加载完成,使用pyautogui实现鼠标右键(点击图片)——V(保存图片)——Ctrl+V粘贴(文件路径+'\\'+文件名)——ent...
原创
1636阅读
2评论
2点赞
发布博客于 2 年前

Python爬虫之selenium百度搜索

通过find_element_by_id查找搜索输入框,百度一下按钮,输入、剪切、清空搜索内容,保存屏幕截图from selenium import webdriverfrom selenium.webdriver.common.keys import Keysimport timedriver = webdriver.Chrome()url = "http://www.baidu.c...
原创
381阅读
0评论
0点赞
发布博客于 2 年前

Python爬虫之selenium爬取豆瓣Python分类书籍

非常简单,找到网页,获取网页内容,xpath查找,输出https://book.douban.com/subject_search?search_text=python&cat=1001&start=%s0from selenium import webdriverimport timefrom lxml import etree#获取网页内容def get_web(...
原创
314阅读
0评论
0点赞
发布博客于 2 年前

Python爬虫request批量代理设置

大量爬取为了必备封IP,需要大量代理IP,代码如下from urllib import errorimport random,requests# 代理IPproxies_list = [ {'http':'39.137.77.66:8080'}, { 'http':'124.42.7.103:80'}]url = 'http://www.baidu.com'# 免费...
原创
1488阅读
0评论
0点赞
发布博客于 2 年前

Python学习之selenium元素查找、鼠标键盘操作、等待、代理

导包
原创
141阅读
0评论
0点赞
发布博客于 2 年前

Python使用selenium和pyautogui实现自动右键保存图片,破解图片防盗链,自定义文件目录及文件名

最近爬图片遇到,构建headers、代理都不能根据图片链接下载图片,浏览器能打开图片链接!!!重点。浏览器能打开,想到了selenium的chrome使用driver.page_source能用来xpath 查找,写入图片就啥都没有想到了能不能自动右键保存,搜索到pyautogui可以实现自动保存,但是网上找不到自定义文件目录的例子,而且打码比较复杂最后发现pyperclip可以将字符串复制...
原创
2753阅读
2评论
2点赞
发布博客于 2 年前

Python爬虫之selenium爬取妹子图片

发现页面79页,每页45个子标题,每个标题有不同页数图片一看这个第1、2、79页,简单https://www.meinvtu123.net/a/7/index.htmlhttps://www.meinvtu123.net/a/7/list_7_2.htmlhttps://www.meinvtu123.net/a/7/list_7_79.html以其中一个详情页链接为例,讲解详情页需爬取...
原创
1785阅读
0评论
1点赞
发布博客于 2 年前

Python爬虫request爬取妹子图片、保存

工具Pycharm、Chrome、Xpath插件思路——总结页面规律、标题查找、图片链接查找、文件保存"""url = http://www.mmxyz.net/rosi-2221/"""#导入模块import requests,time,osfrom lxml import etree#爬取页面def get_html(url): res = requests.get(...
原创
1450阅读
0评论
0点赞
发布博客于 2 年前

Python学习之Django

文章目录环境创建、进入、新建项目路由环境创建、进入、新建项目#查询环境conda env list#创建环境 Django是环境名称可以自己取名conda create -n Django python=3.7.1#进入环境conda activate Django#新建项目,先使用cd命令进入你要新建项目的位置,zrq为项目名称django-admin start...
原创
201阅读
2评论
0点赞
发布博客于 2 年前

Python爬虫requests之扇贝单词

代码,使用xpath筛选import requestsfrom lxml import etree#词汇表words = []def shanbei(page): url ='https://www.shanbay.com/wordlist/104899/202159/?page=%s'%page print(url) rsp = requests.g...
转载
443阅读
0评论
0点赞
发布博客于 2 年前

Python爬虫urllib之猫眼电影正则

猫眼电影 '''利用正则爬取猫眼电影-url:http://maoyan.com/board-把电影信息拿下来分析-一个电影信息在dd的单元内-找到每一个dd,用re按个查找需要的信息'''#1 把网页信息爬取下来from urllib import requesturl = 'http://maoyan.com/board'rsp = request.urlopen(u...
原创
111阅读
0评论
0点赞
发布博客于 2 年前

Pygame学习笔记之三:飞船大战外星人

参数 settings.pyclass Settings(): """存储《外星人入侵》的基本参数""" def __init__(self): """初始化游戏的设置""" #屏幕设置 self.screen_width = 1200 self.screen_height = 700 self.bg...
原创
560阅读
0评论
1点赞
发布博客于 2 年前

Pygame学习笔记之二:火箭上下移动射击

参数class Canshu(): def __init__(self): self.screen_width = 1200 self.screen_height = 800 self.bg_color = (250,250,250) self.rocket_speed = 2 self.zidan_s...
原创
2185阅读
0评论
2点赞
发布博客于 2 年前

Pygame学习笔记之一:飞船左右移动射击

参数 set.pyclass Settings(): """存储《外星人入侵》的基本参数""" def __init__(self): """初始化游戏的设置""" #屏幕参数,背景颜色,移动速度 self.screen_width = 1200 self.screen_height = 700 se...
原创
620阅读
0评论
1点赞
发布博客于 2 年前

Ubuntu18.0.4最全软件安装Python环境配置笔记

分辨率修改#查看分辨率xrandr#修改分辨率xrandr -s 1440x1050
原创
1219阅读
0评论
1点赞
发布博客于 2 年前

Python爬虫urllib之读取cookie文件不输密码访问网站

在From Data查看需要提交的data信息,构建data信息log:pwd:wp-submit: 登录redirect_to: http://date.jobbole.com/wp-admin/testcookie: 1 data = { "log": "*******", "pwd": "******", "rememberme...
原创
273阅读
0评论
0点赞
发布博客于 2 年前

Python爬虫urllib之cookie保持登录状态

post请求,发送账户信息data,requset里面data必须为bytes格式 data = { #填写自己的email和密码 'email':'*********', 'password':'*******' } #把data信息编写为机byte形式 data = parse.urlencode(data).encode...
转载
871阅读
1评论
0点赞
发布博客于 2 年前

Python爬虫urllib之模拟百度搜索

HTTP状态码分类分类描述1**信息,服务器收到请求,需要请求者继续执行操作2**成功,操作被成功接收并做处理3**重定向,需要经一部的操作已完成请求4**客户端错误,请求包含语法错误或无法完成请求5**服务器错误,服务器在处理请求过程中发生了错误HTTP请求方式-GET-POST...
原创
538阅读
0评论
0点赞
发布博客于 2 年前

Pycharm使用

#Anaconda和 Pycharm 设置##Python3.7安装multiprocessing1.使用&amp;amp;amp;gt;pip install multiprocessing会出错,原因在于Python3.7已经内置multiprocessing模块
原创
428阅读
0评论
0点赞
发布博客于 2 年前