- 博客(18)
- 收藏
- 关注
原创 python——面向对象
语法错误和异常异常:程序运行的时候报出来的,xxxError异常处理格式:try: 可能出现异常的代码except: 如果有异常执行的代码finally: 无论是否存在异常都会被执行的代码情况一:try: 有可能产生多个异常 except 异常类型1: print() except 异常类型2: print()注意:如果是多个except,异常类型的顺序许哟啊注意,最大的Exception要放在后面情况二:获取Exception.
2022-04-25 14:47:18 182
原创 python笔记整理
语法错误和异常异常:程序运行的时候报出来的,xxxError异常处理格式:try: 可能出现异常的代码except: 如果有异常执行的代码finally: 无论是否存在异常都会被执行的代码情况一:try: 有可能产生多个异常 except 异常类型1: print() except 异常类型2: print()注意:如果是多个except,异常类型的顺序许哟啊注意,最大的Exception要放在后面情况二:获取Exception.
2022-04-24 10:30:06 191
原创 python笔记整理day3
装饰器:遵循开放封闭原则,在不改变原函数的情况下,扩展了函数的的功能函数名仅仅是个变量,只不过指向定义的函数而已,所以才能通过函数名()调用,如果函数名=xxx被修改了,那么当在执行函数名()时,调用的就不指向之前的那个函数了def decorater(fun): def wrapper(): fun() print('刷漆') return wrapper@decoraterdef house(): # house=decorater..
2022-04-23 10:05:33 170
原创 python笔记整理 day2
列表可以转成字典:但是前提:列表中元素都要成对出现dict1=dict([('name','lucy'),('age',10)])print(dict1)操作:1、添加元素:字典名[key]=value注意:key是唯一的,所以在添加的时候如果出现同名的key,后面key对应的value就替换原来的2、修改value值字典名[key]=value关键看键值:如果字典中不存在键 就是添加 如果字典中存在键 就是修改3、字典删除pop(key):根据key值实现删除.
2022-04-22 09:58:53 176
原创 python笔记整理
# 关系运算符 结果 true false bool类型# 逻辑运算符 and or not # and 两边都是非零数字的时候,结果返回最后的数字值 # or 两边都是非零数字的时候,结果返回最前面的数字值# 字符串进行格式化 %s字符串 %d 整数 %f浮点数 print('我喜欢听%d岁的%s唱歌'%(age,name))# 二进制:0,1 八进制0~7 十进制0~9 十六进制 0~9 a~f# 十进制转换成二进制 print(bin(a))# 十进制转八进制 pri.
2022-04-21 09:33:44 188
原创 python分布式爬虫
# 分布式概念:使用多台机器搭建一个分布式机群,在分布式机群中共同运行同一组程序# 让其对同一个网络资源进行联合数据爬取# 原生的scrapy框架时无法实现分布式 :1、调度器无法被分布式机群共享 2、管道无法被共享# 如何实现分布式?使用scrapy结合着scrapy-redis组件实现分布式# scrapy-redis组件作用:给scrapy提供可以被共享的管道和调度器 pip install scrapy_redis# 实现流程 1、创建工程# 2、.
2022-04-14 22:23:41 1430
原创 python——使用crawlspider进行爬虫
# -crawlspider spider的一个子类 用于实现全站数据爬取# -spider是爬虫文件中的父类 子类的功能一定是多余父类# 使用:1、创建工程 cd startproject crawlPro(name)# 2、cd 进入工程目录 cd crawlPro/# 3、创建爬虫文件 -scrapy genspider -t crawl spiderName www.xxx.com# 链接提取器、规则解析器 这两个工程是crawlspider独有的# ..
2022-04-14 17:25:11 370
原创 python——学习scrapy框架
# srapy框架# 什么是框架——就是一个集成了很多功能并且具有很强通用性的项目模板# 如何学习框架——专门学习框架封装的各种功能的详细用法# 什么是scrapy——爬虫中封装好的一个明星框架# 功能:高性能的持久化存储操作、异步的数据下载,高性能的数据分析 、分布式爬虫# ssrapy的基本使用 ——环境的安装 pip install wheel 下载twisted,下载地址为http://www.lfd.uci.edu/~gohlke/pythonlib/#twist# .
2022-04-13 15:20:14 205
原创 python——利用selenium实现12306模拟登录
# 12306模拟登录编码流程# 1、使用selenium打开登录页面 2、对当前selenium打开的这张页面进行截图 3、对当前图片局部区域(验证码图片)进行裁剪 (好处:将验证码图片和模拟登录进行一一对应)# 4、使用超级鹰识别验证码图片(坐标)from selenium import webdriverimport timefrom selenium.webdriver import ActionChainsfrom PIL import Imagebro=webdri.
2022-04-13 14:44:38 552 1
原创 python——利用selenium实现便捷爬虫
# selenium使用流程:# ——环境的安装 : pip install selenium# ——下载一个浏览器的驱动程序(谷歌浏览器)# ——下载路径:http://chromedriver.storage.googleapis.com/index.html# ——驱动程序和浏览器的映射关系:http://blog.csdn.net/huilan_same/article/details/51896672# ——实例化一个浏览器对象:# ——编写基于浏览器的实例化操作from sele.
2022-04-11 20:03:33 644
原创 python——cookie的用法
# http/https协议特性:无状态# 没有请求到对应页面数据的原因:# 发起的第二次基于个人主页页面请求的时候,服务器端并不知道此请求是基于登录状态的# cookie的作用:用来让服务器记录客户端相关状态# 处理cookie的两种方法:1、手动处理 :通过抓包工具将cookie封装到headers里 不推荐# 2、自动处理:cookie的值是从哪里来的? 模拟登录post请求后,由服务器端创建# .
2022-04-09 19:40:32 2308
原创 python 爬虫——模拟登录古诗文网
验证码识别验证码识别需要借助第三方线上平台——线上的打码平台进行验证码识别。因此,为了模拟登录,我们要做的就是将平台的验证码爬取下来,并利用线上识别平台完成验证码的输入,从而成功登录。线上打码平台:云打码:(貌似现在网站被封锁了)超级鹰:(推荐使用)打码兔等超级鹰使用流程简单介绍:注册:注册一个用户身份 完成登录登录:登录后点击软件id——生成一个软件ID(931407)——下载示例代码(选择语言)代码:(已经调试并成功运行)#!/usr/bin/e
2022-04-09 16:06:52 1549
原创 【无标题】
#提供的用于数据分析的方法和属性:# 1、soup.tagName:返回的是文档中第一次出现的tagName对应的标签# 2、soup.find():find('tagName')等同于soup.tagName# 属性定位: print(soup.find('meta',description_='keywords'))# 3、soup.find_all(‘tagName’)返回符合条件的所有标签 返回的是列表# 4、soup.select(id、类、标签选择器)返.
2022-04-08 15:27:51 1237
原创 【无标题】利用python实现爬虫
# 需求:爬取国家药品监督管理总局基于中华人民共和国化妆品生产许可证相关数据# 动态加载数据 首页中对应的企业信息是通过ajax动态请求得到的# 通过对详情页url的观察发现:# 1、url的域名都是一样的,只有携带的参数不一样# 2、id值可以从首页对应的ajax请求到的json串中获取# 3、域名和id值拼接可以得到一个完整企业对应的详情页url# 详情页的企业数据也是动态加载出来的# http://scxk.nmpa.gov.cn:81/xk/itownet/portalAct.
2022-04-07 15:58:05 443
原创 pandas——玩转数据分析
pandas第10讲 利用pandas实现表格间的增删改# 用pandas实现表格的并列import pandas as pddf1=pd.read_excel('F:/桌面杂碎/output.xlsx',sheet_name='Sheet1')df2=pd.read_excel('F:/桌面杂碎/output.xlsx',sheet_name='Sheet2')# print(df1)# print(df2)# 将两个数据表进行拼接 在纵向拼接 用append方法df1=df1..
2022-04-06 17:10:15 113
原创 pandas——玩转数据分析
panda第8讲——利用pandas计算平均值扩充数据表import pandas as pddf=pd.read_excel('F:/桌面杂碎/output.xlsx',sheet_name='Sheet1',index_col='ID')# print(df)df_temp=df[['score1','score2','score3']]注意写法result=df_temp.sum()df['total']=df_temp.sum(axis=1)# 横向计算总和 默认情况下按照列进
2022-04-06 13:56:53 1314
原创 pandas玩转数据分析
pandas第五讲——复合条件筛选数据利用pandas库进行条件筛选数据 用loc函数搭配序列的apply函数 特别注意loc[]import pandas as pddf = pd.read_excel("F:/桌面杂碎/output.xlsx", index_col='ID')def age_18_24(a): return 18 <= a < 24def scorea(s): return 80 <= s <= 100df = d.
2022-04-05 23:13:06 812
原创 数据分析——pandas玩转数据分析
pandas第一讲——利用pandas创建excel文件import pandas as pd # 导入pandas包df=pd.DataFrame()# 定义一个变量 变量类型是dataFramedf.to_excel("F:/桌面杂碎/output.xlsx")# 将变量保存成excel类型,保存地址为F盘print("done!")pandas中最重要和基础的就是dataFrame(数据帧)的使用建立一个有数据的excel表格,使用dataFrame并用字典形式表示
2022-04-05 15:48:10 2638
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人