python
文章平均质量分 77
人生苦短,python当歌
空城机
光阴雕琢生命,岁月磨砺人生
成为一个普通的上班族
展开
-
爬取CSDN官方博客粉丝中码龄20年以上的用户数量
文章目录序正文开始IP代理请求头cookie接口分析爬虫数据保存重点,爬取数据方法多线程爬取完整代码爬取结果序又是一周周末了,闲暇无事,很有精神, 准备看一下csdn社区中码龄20年以上的大佬们人数有多少该如何查看呢,当然是使用爬虫了。构思是爬取一位用户博客中的粉丝,然后依靠这些粉丝的粉丝,把社区中的用户都爬取一遍,筛选出码龄二十年以上的大佬。单点开花,从一到多。但是人类是有极限的,想法很好(可能存在从没关注过别人并且没有粉丝的用户),实施好麻烦,声音那么小还想写爬虫。所以从入门到放弃,原创 2021-03-20 17:11:20 · 1880 阅读 · 10 评论 -
python爬虫系列——开始入土(六)
这里写目录标题验证码识别pytesseract安装Pillow库tesseract-ocr安装方式:验证码识别在python爬虫的使用过程中,有可能会遇到界面需要登陆并输入图片验证码的情况在这种情况下,可以人工进行识别,但是步骤太过繁琐,所以可以采用机器识别在之前的文章python爬虫系列——开始入土(三)中也提到过有关遇到验证码的情况使用JavaScript去进行图片文字识别时也有使用:JavaScript 图片转文字,文字转语音本文章主要介绍使用pytesseract如何对验证码图片中的文字原创 2021-03-11 14:33:12 · 161 阅读 · 0 评论 -
python爬虫系列——开始入土(五)
selenium模块selenium与爬虫什么是seleniumselenium与爬虫便捷的获取网站中动态加载的数据便捷实现模拟登录什么是selenium基于浏览器自动化的一个模块原创 2021-02-28 22:20:22 · 209 阅读 · 0 评论 -
python爬虫系列——开始入土(四)
高性能异步爬虫原创 2021-02-14 22:06:44 · 310 阅读 · 5 评论 -
python爬虫系列——开始入土(三)
目录验证码cookie代理验证码验证码和爬虫之间的爱恨情仇反爬机制:验证码,识别验证码图片中的数据,用于模拟登陆操作。识别验证码的操作:人工肉眼操作tesserocr库/tesseract库第三方自动识别cookiehttp/https协议特性:无状态cookie:用来让服务器端记录客户端的相关状态cookie来源:模拟登录post请求后,由客户端创建如果请求过程中产生了cookie,则该cookie会被自动存储、携带在该session对象中。python使用session发送原创 2021-02-13 21:36:05 · 160 阅读 · 4 评论 -
python爬虫系列——开始入土(二)数据解析
数据解析数据解析分类正则例子:使用正则聚焦爬取图片bs4xpath原理概述数据解析分类正则例子:使用正则聚焦爬取图片爬取的网站:https://818ps.com/search/0-0-0-0-0-null-0_0_0_67-0-0-0-0.html重点:分析需要在哪一块中寻找到图片地址,可以使用.*?来省略中间不需要的部分ex = '<div class="min-img" has-ajax="0" style="width:216px;height:384px">.*?<原创 2021-02-13 19:57:37 · 333 阅读 · 3 评论 -
python爬虫系列——开始入土(一)
爬虫之前我也写了有关爬虫的博客,可以参考:爬虫IP代理池代码记录python爬虫爬网络小说python爬虫练习爬取信息python爬虫实验浏览量——凉凉 爬虫(爬取网页、模拟浏览器、设置超时、HTTP请求)避免爬虫违法时常的优化自己的程序,避免干扰被访问网站的正常运行在使用,传播爬取到的数据时,审查抓取到的内容,如果发现涉及到用户隐私商业机密等敏感内容需要及时停止爬取或传播爬虫在使用场景中的分类通用爬虫抓取系统重要组成部分,抓取的是一整张页面数据聚焦爬虫建立在通用爬虫基础之原创 2021-02-08 22:19:41 · 522 阅读 · 0 评论 -
爬虫IP代理池代码记录
使用python进行爬虫访问网站时,大部分时候需要当心IP访问过于频繁而被网站封锁这个时候就需要使用一下IP代理池了使用的是网上的免费IP网站:国内高匿代理代码:import requestsimport timeimport randomfrom lxml import etree# 获取def get_ip_list(headers, page): ip_list = [] for i in range(int(page)): # 爬取免费的IP原创 2021-01-24 19:51:24 · 590 阅读 · 2 评论 -
爬取全国的城市路口数量
在图吧本地生活中https://poi.mapbar.com/python写方法:import requestsimport refrom lxml import etreefrom Roadtest01 import responimport pymysqlimport randomimport jsonfrom bs4 import BeautifulSou...原创 2020-06-17 21:23:23 · 2188 阅读 · 10 评论 -
python(二十三)——正则表达式,re模块
目录正则表达式排列正则概述正则表达式的元字符匹配多个字符re模块深入字符串切割re.finditer函数字符串的替换和修改分组编译正则表达式排列排列组合是组合学最基本的概念。所谓排列,就是指从给定个数的元素中取出指定个数的元素进行排序。组合则是指从给定个数的元素中仅仅取出指定个数的元素,不考虑排序。排列组合的中心问题是研究给定要求的排列和组合...原创 2019-07-10 16:44:46 · 652 阅读 · 0 评论 -
python(二十七)——网络编程(TCP/UDP编程,客户端与服务器信息传输,多任务原理,进程间通信)
目录网络编程TCP编程客户端与服务器之间信息传输UDP编程多任务原理启动进程池进程间通信网络编程网络编程概述:自从互联网诞生以来,现在基本上所有的程序都是网络程序,很少有单机版的程序了 计算机网络就是把各个计算机连接到一起,让网络中的计算机可以互相通信。网络编程就是如何在程序中实现两台计算机的通信 用Python进行网络编程,就是在Python程序本身这...原创 2019-07-13 20:21:19 · 1078 阅读 · 1 评论 -
python(二十二)——python2、3区别,函数map、reduce、sorted,单元测试,远程链接
目录python3和python2区别高阶函数map和reduce高阶函数filter高阶函数sorted单元测试对函数进行单元测试对类进行单元测试远程链接Windowspython3和python2区别性能:python3起始比python2效率低,但python3有极大的优化空间,效率正在追赶编码:python3源码使用utf-8编码,使得变量...原创 2019-07-09 16:16:18 · 385 阅读 · 0 评论 -
python(十九)——图形界面Tkinter下
目录Spinbox控件Menu顶层菜单Menu鼠标右键菜单Combobox下拉控件Frame框架控件tkinter数据显示表格数据树状数据布局绝对布局相对布局表格布局鼠标事件鼠标点击事件鼠标移动事件鼠标释放事件进入事件和离开事件响应所有按键的事件响应特殊按键的事件组合按键事件Spinbox控件输入控件...原创 2019-06-24 21:18:29 · 1210 阅读 · 0 评论 -
python(二十六)——爬虫练习(爬取图片,爬取QQ号)
目录练习:从网上爬取图片到本地练习:爬取网络中的QQ号练习:从网上爬取图片到本地图片来自1号店可以先将一号店的网页代码爬取到一个HTML中import urllib.requestimport osimport redef imageCrawler(url,topath): headers = { 'User-Agent': 'Mozi...原创 2019-07-12 16:21:22 · 1383 阅读 · 0 评论 -
python(二十一)——键盘、鼠标模拟,读取、创建word文件,读取xlsx文件
目录键盘模拟鼠标模拟读取doc文件和docx文件创建word文件读取xlsx文件键盘模拟例子:模拟按下左下角的Windowsimport win32conimport win32apiimport time# 按出win控制键win32api.keybd_event(91,0,0,0)time.sleep(0.1)win32api.key...原创 2019-07-08 16:51:17 · 753 阅读 · 0 评论 -
python(二十八)——线程通信,生产者与消费者,线程调度,协程
目录线程线程通信生产者与消费者线程调度计算密集型和IO密集型协程线程在一个进程内部要同时干多件事,就需要同时运行多个‘子任务’,我们把这些子任务称为线程线程通常叫做轻型的线程。线程是共享内存空间的并发执行的多任务,每一个线程都共享一个进程的资源线程是最小的执行单元,而进程至少要有一个线程。如何调度进程和线程,完全由操作系统决定,程序不能决定什么时候执行,...原创 2019-07-14 23:01:50 · 759 阅读 · 0 评论 -
python(二十)——树状目录层级、读写CSV、读取PDF、播放音乐
目录树状目录层级treeFileInfoWindow读写CSV文件读CSV的对象将数据写入csv数据中读取PDF文件安装pdfminer模块建立readPdf方法去读取pdf中的文字播放音乐树状目录层级treeFile代码:import tkinterfrom tkinter import ttkimport osclass Tree...原创 2019-06-30 18:56:07 · 2166 阅读 · 1 评论 -
python(二十四)——爬虫(爬取网页、模拟浏览器、设置超时、HTTP请求)
目录爬虫使用python写爬虫需要的技能通用爬虫缺点urllib爬取网页返回状态码response.getcode()解码编码模拟浏览器设置超时HTTP请求:进行客户端与服务端之间的消息传递时使用爬虫网络爬虫又称网络蜘蛛、网络蚂蚁、网络机器人等,可以自动化浏览网络中的信息,当然浏览信息的时候需要按照我们制定的规则进行,这些规则称之为网络爬虫算法。使...原创 2019-07-11 14:16:16 · 5439 阅读 · 0 评论 -
python(二十九)——MySQL安装、python连接MySQL数据库
目录MySQLMySQL安装一、基本命令二、数据库操作三、表操作四、数据操作五、查关联查询:python连接MySQL数据库例子:使用python代码获取MySQL的版本号例子:给数据库创建一个新表例子:向表格中插入数据例子:查询表中数据MySQLMySQL安装MySQL的安装可以参考:http://xinzhi.wenda.so...原创 2019-07-15 22:52:39 · 971 阅读 · 0 评论 -
python(二十五)——JSON、抓取Ajas请求数据
目录JSON抓取网页动态Ajax请求的数据练习:爬取糗事百科的段子JSONJSON(JavaScriptObject Notation, JS 对象简谱) 是一种轻量级的数据交换格式。它基于ECMAScript(欧洲计算机协会制定的js规范)的一个子集,采用完全独立于编程语言的文本格式来存储和表示数据。简洁和清晰的层次结构使得 JSON 成为理想的数据交换语言。 易于人阅...原创 2019-07-12 14:30:58 · 693 阅读 · 1 评论 -
python(三十)——从数据库查询应用、MongoDB数据库
从数据库查询数据到tkinter表格中import pymysql,tkinterfrom tkinter import ttkdef serMySql(): db = pymysql.connect('localhost', 'root', 'passwd', 'class') cursor = db.cursor() name = 'student' ...原创 2019-08-03 16:45:08 · 701 阅读 · 0 评论 -
python(三十一)——网络编程:模拟QQ发送消息
网络编程:模拟QQ发送消息可以参考上一篇博客:https://blog.csdn.net/qq_36171287/article/details/95670584里面有客户端与服务器之间信息传输这是模拟QQ的消息发送功能制作的、其中的client和client1,client2代码一样,都是一个客户端,客户端之间通过server服务器来进行消息的互相传递python的...原创 2019-08-14 16:35:27 · 1420 阅读 · 4 评论 -
python(四)——常量和变量、数学函数、随机数
目录定义变量和常量打印变量类型查看变量地址删除变量数字类型转换数学函数绝对值abs()比较两个数的大小获取给定序列的最大值max()和最小值min()求X的Y次方pow()四舍五入round()向上取整math.ceil()和向下取整math.floor()返回小数部分和整数部分math.modf()开平方math.sqrt()随...原创 2019-05-01 11:50:35 · 876 阅读 · 0 评论 -
python(十八)——图形界面Tkinter中
目录Tkinter组件CheckButton复选框控件语法显示多选框内容代码:单选框ListBox列表框创建一个listbox向列表框添加元素在列表框开头添加元素在列表框末尾添加元素删除列表框元素选中列表框中的元素获取列表框中元素的个数返回当前选中的元素的索引项判断列表中一个元素是否被选中打印列表框中元素修改列表框中元素...原创 2019-06-22 14:48:36 · 1808 阅读 · 0 评论 -
python(十六)——对象属性与类属性,运算符重载,发送邮件程序
目录对象属性与类属性类属性与方法类的私有属性类的方法类的私有方法动态给实例添加方法和属性并使用@property运算符重载发送邮件程序对象属性与类属性在python中,一个对象的特征也称为属性(attribute)。它所具有的行为也称为方法(method)结论:对象=属性+方法在python中,把具有相同属性和方法的对象归为一个类(class)...原创 2019-06-16 23:24:00 · 1472 阅读 · 0 评论 -
python中的@
@是python中的一个修饰符官方文档@dec2 @dec1 def func(arg1, arg2, ...): pass 等价于def func(arg1, arg2, ...): pass func = dec2(dec1(func)) 具体示例:def a(b): print("****...原创 2019-06-06 15:02:21 · 1490 阅读 · 0 评论 -
python爬虫练习爬取信息
爬起点小说中的一章# -*- coding: utf-8 -*-import requestsimport re#下载一个网页url = 'https://read.qidian.com/chapter/pHCOMN5YAqETFqQ-idajwA2/NhXKjTTceCNOBDFlr9quQA2'#模拟浏览器发送HTTP请求response = requests.get(u...原创 2019-05-26 15:58:01 · 4532 阅读 · 0 评论 -
python3.7中lxml的安装
lxml是什么:lxml是个非常有用的python库,它可以灵活高效地解析xml,与BeautifulSoup、requests结合,是编写爬虫的标准姿势。方法1:打开cmd输入pip install lxml如果能够成功是最好的,可能现在打开pycharm还没有lxml,就选择lxml上的红灯泡选择导入就可以了方法2:打开cmd输入: pip install wh...原创 2019-05-26 15:18:31 · 9644 阅读 · 11 评论 -
python爬虫爬网络小说
网络爬虫定义:爬虫本质上是一段程序(一个脚本) 能帮我们自动批量采集我们需要的文本信息、图片等资源 模拟浏览器的自动浏览网页(99%)python是写爬虫的首选语言网络资源:网页、图片、视频、音频、文件url:统一资源定位符(网址)python环境安装和requests模块的安装 在命令行下使用pip install requests下载网页的python爬虫程序新...原创 2019-05-16 23:23:05 · 2932 阅读 · 1 评论 -
python(七)——元组、字典、Set、
目录元组元组的创建元组元素的访问获取最后一个元素可以使用下标为-1元组可以连接列表转元组dict字典key的特性字典元素的访问: 字典名[key]字典添加字典删除pop()遍历字典例子:输入一个时间,输出下一秒的时间Set元组元组的创建元组使用小括号,列表使用方括号。元组一旦初始化就不能再修改,而列表可以元组...原创 2019-05-11 20:25:49 · 556 阅读 · 0 评论 -
python(六)——列表,while循环,for循环,turtle画图工具
目录while循环列表列表元素的访问列表组合列表的重复判断元素是否在列表中列表截取二维列表列表末尾添加一个新数值append()和extend()列表插入insert()列表删除元素pop() 和 remove()清除列表所有元素clear()从列表中查找某个元素的下标index()列表中元素个数len()查看元素在列表中出现的次数cou...原创 2019-05-04 17:41:57 · 6592 阅读 · 0 评论 -
python(二)——python安装与配置
Python可应用于多平台包括 Linux 和 Mac OS X。我们可以到官网界面去下载符合Windows的python包官网地址:https://www.python.org/downloads/windows/下载后,双击下载包,进入 Python 安装向导,安装非常简单,你只需要使用默认的设置一直点击"下一步"直到安装完成即可。可以参照:https://blog...原创 2019-04-20 10:07:51 · 1055 阅读 · 0 评论 -
python(一)——python简介
最近几年python语言逐渐流行起来了,在一些前端的开发中,很多工作都需要掌握一门语言,其中就有python。所以我也来学习一下,在博客上做一些笔记。什么是python?python是一种解释型、面向对象、动态数据类型的高级程序设计语言。但python的第一个版本是在1991年发行的,所以python的年龄并不算小。python简介python是一种解释型语言:开发中没有了编译这个...原创 2019-04-19 17:17:49 · 1465 阅读 · 0 评论 -
python 中没有i++或者i--
在python中是没有自增和自减的,但在python中存在 i = i + 1和 i = i -1 的情况。因为Python的模型规定,数值对象是不可改变的。 i = i + 1 相当于重新创建了一个变量 i ,而不是改变了 i 中的数值。下面是例子说明:a = 10b = 10print(id(a))print(id(b))print(a is b)a = a + 1p...原创 2019-05-02 20:30:55 · 44417 阅读 · 2 评论 -
python(五)——运算符、字符串、转义字符
目录运算符位运算符:逻辑与运算符成员运算符 in 和 not in身份运算符 is 和 isnot运算符优先级字符串python中字符串可以进行乘法运算访问字符串中某一个字符截取字符串判断一个字符串是否在另一个字符串内判断是否为闰年小算法:eval(str) 将字符串str当成有效的表达式来求值并返回计算结果,...原创 2019-05-02 20:11:48 · 1157 阅读 · 0 评论 -
python(十一)——递归、栈结构、队列、深度遍历、广度遍历
目录递归写递归方式:模拟栈结构队列递归遍历目录栈模拟递归遍历目录(深度遍历)队列模拟递归(广度遍历)递归递归调用:一个函数,如果调用了自身,这种调用称为递归调用,一个会调用自身的函数称为递归函数凡是循环能做的,递归都能做写递归方式:写出临界条件 找这一次和上一次的关系 假设当前函数已经能用,调用自身计算上一次的结果,再求出本次的结果...原创 2019-06-06 17:03:25 · 1353 阅读 · 0 评论 -
python(十四)——包,Pillow,类(构造函数)
目录包第三方模块Pillow:非常强大的处理图像的工具库打印图片属性修改图片大小理解面向对象python类创建一个类实例化一个类对象的初始状态(构造函数__init__())self包如果不同的人编写的模块重名了怎么办,为了解决模块命名冲突,引入了按目录来组织模块的方法,称为包特点:引入了包之后,只要顶层的包不与其他人发生冲突,那么模块都...原创 2019-06-13 12:43:47 · 1753 阅读 · 0 评论 -
python(十七)——图形化界面Tkinter上
目录TkinterTkinter 组件可以为界面设置标题为界面设置大小和位置label控件label标签可以显示文本button控件语法创建一个简单按钮:给按钮添加功能Entry输入控件语法点击按钮输出输入框中的内容小程序Text文本控件带滚动条的文本显示TkinterPython支持多种图形界面的第三方库,包括:...原创 2019-06-19 19:08:50 · 4627 阅读 · 0 评论 -
python(十)——文件读写、OS模块、win32控制窗体、语音合成
目录文件读写读取文件内容1、读取文件的全部内容2、读取指定字符数3、读取整行4、读取所有行并返回列表5、修改修饰符位置seek文件写入list-tuple-dict-set的文件操作os模块打印os的名字,获取操作系统类型 nt---Windows posix---Linux/Unix/Mac OS X打印操作系统详细信息,但Wi...原创 2019-06-03 21:13:19 · 648 阅读 · 0 评论 -
python爬虫实验浏览量——凉凉
我之前的一篇爬虫爬取信息练习里使用了请求头:User-Agent,让网页人为刚刚进行访问的是浏览器,所以我在想是否可以使用这种方法去增加我CSDN博客的访问量,所以我使用这篇博客进行了测试。第一次我没有使用代理IP去request.get访问这篇博客,也没有使用多个进程,效果成功但访问量刷新效率低,而且IP地址容易被网站的反爬虫检索出来然后封锁。import requestsimpor...原创 2019-06-09 15:12:44 · 11700 阅读 · 1 评论