![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python
Dragon Wu
创造是信仰!因为热爱所以从事。
展开
-
python 面向对象注意点概述总结
目录一、继承二、是否继承object类的区别三、封装四、类方法、静态方法与属性方法五、多态六、python是否存在实质意义上的私有变量?一、继承与java的继承不同python支持多继承,如Person类同时继承Animal类和Species类可以这样写: class Animal(object): def __init__(self): pass class Species: def __ini.原创 2022-02-07 20:45:52 · 770 阅读 · 0 评论 -
Pandas 学习总结
一、数据结构1、创建series data = pd.Series([5, 4, 3, 2, 1]) data = pd.Series(np.arange(1, 6),index=['a','b','c','d','e']) dict = {"name": "Jack", "age": 12, "sex": "male"} data = pd.Series(dict, index=['name', "age", "sex"])2、获取series以及切片获..原创 2022-02-06 20:44:10 · 1237 阅读 · 0 评论 -
Seaborn 学习总结
依赖:import seaborn as snsimport numpy as npimport matplotlib.pyplot as pltimport pandas as pd样式sns.set_style(param,rc={}) 设置背景主题共有如下参数: param:white,dark,whitegrid,darkgrid,ticks 设置样式 rc={'font.family':"KaiTi"}设置为楷体,rc只能设置外形...原创 2022-02-05 19:33:40 · 951 阅读 · 0 评论 -
Numpy 学习总结
一、数组import numpy as np1、特殊数组 array_zeros = np.zeros((3, 3)) array_ones = np.ones((4, 4)) array_full = np.full((2, 3), 9) array_eye = np.eye(4)zero全零矩阵,ones全1矩阵,full(元组,数字)传入元组代表几行几列、数字代表都按该数字填充,eye行列数为某值的单位矩阵,斜角对称2、创建数组..原创 2022-02-03 20:50:51 · 1073 阅读 · 0 评论 -
Matplotlib 绘图总结
使用的依赖:import matplotlib.pyplot as pltimport numpy as npimport pandas as pdfrom matplotlib import font_manager # 引入字体if __name__ == '__main__': # 绘图函数 plt.show()1、折线图# 折线图1def line_chart_one(): y = [np.random.randint(0, 10) for..原创 2022-01-24 19:11:17 · 3646 阅读 · 0 评论 -
Python 批量解压Zip文件
【代码】Python 批量解压Zip文件。原创 2023-10-29 22:49:42 · 545 阅读 · 0 评论 -
Java 运行使用第三方库的python脚本 案例
Java调用python第三方库脚本的案例原创 2022-06-04 15:28:31 · 315 阅读 · 0 评论 -
Python 从第几行开始读取文件
lines = []with codecs.open("./luanxu.txt", 'r', 'gb18030') as infile: for i in infile.readlines()[25701:30519]: lines.append(i)#将读取数据保存新文件中with codecs.open("./cnews.test.txt", 'w','gb18030') as f: for line in lines: f.write(lin.原创 2022-03-18 16:01:03 · 2747 阅读 · 2 评论 -
Python 导入自己写的模块
Pycharm 导入自己写的模块_AlbertChenTao的博客-CSDN博客_pycharm导入自己写的模块转载 2022-03-07 14:59:54 · 160 阅读 · 0 评论 -
Python __init__文件作用解释
目录一、作用一导入公共模块二、导包限制__all__的用法一、作用一导入公共模块如:__init__.py文件import sysimport requests as reqimport os# __all__ = ["sys", "req", "os"]使用该包的python文件引入from <package> import * # 导入全部from <package> import sys # 导入单模块可有效降低空间复杂原创 2022-03-07 11:20:14 · 1712 阅读 · 0 评论 -
Python 多线程文件打包,解决方法
按照官方的结束,多线程打包需要在主函数开始处添加如下:multiprocessing.freeze_support()之后打包就正常了。原创 2022-03-01 13:35:33 · 829 阅读 · 0 评论 -
Python | 多线程处理数据并写入到文件,但数据内容存在残缺混乱的情况。
Python | 多线程处理数据并写入到文件,但数据内容存在残缺混乱的情况。_.-CSDN博客转载 2022-02-27 13:25:01 · 817 阅读 · 0 评论 -
Python 中无法实现像java一样的方法重载,难受,详情看链接
Python 方法重载_ffantastic的博客-CSDN博客_python 重载转载 2022-02-25 10:48:16 · 105 阅读 · 0 评论 -
Python 爬虫总结——案例代码
目录request的基本使用urllib使用图片爬取获取动态数据session和cokkie的处理使用xpath解析使用正则解析BeautifulSoup使用seleium自动化爬虫其他自动化操作实现无界面自动化处理iframe标签基于selenium的12306用户登录代理的使用验证码解析协程的使用同步爬虫多线程异步爬虫的使用线程池异步协程aiohttp实现任务异步协程分布式爬虫简单练手项目肯德基破解...原创 2022-02-22 16:44:16 · 5353 阅读 · 2 评论 -
sklearn 混淆矩阵分析pima 印第安人糖尿病数据
数据链接:FE_pima-indians-diabetes.csv · biabianm/pima-indians-diabetes - Gitee.comimport pandas as pdfrom sklearn.model_selection import train_test_split # 数据分离from sklearn.linear_model import LogisticRegression # 逻辑回归模型from sklearn import metrics # 准原创 2022-01-15 11:29:06 · 848 阅读 · 1 评论 -
数据预处理 一般操作
1、首先查看数据字段情况data = pd.read_csv(res.FILE_PATH['test'], encoding="utf-8")print(data.info())查看前几行数据data = pd.read_csv(res.FILE_PATH['test'], encoding="utf-8")print(data.head())2、查看字符串类型数字的具体数据类别 # 查看字符串类型数字的具体数据类别 data_types = data..原创 2022-01-13 11:04:04 · 528 阅读 · 0 评论 -
pandas 获取标头和获取索引
df.columns.valuesdf.index.values原创 2022-01-13 10:12:30 · 887 阅读 · 0 评论 -
数据分析 一般方法
1、分类型数据统计(1)统计每个类别的数量# 统计每个类别的数量print(data['CATE_NAME_LV1'].value_counts().head(10))(2)查看每个数据类别占比# 查看每个数据类别占比print(data['CATE_NAME_LV1'].value_counts(normalize=True).head(10))2、数据型数据统计(1)对数据型数据进行分箱处理data = pd.cut(range(10), bins=5, .原创 2022-01-12 19:49:40 · 493 阅读 · 0 评论 -
pandas read_csv及读取后的相关操作
1、以某行为标头;读取部分列2、分块读取3、使用iterator来分块读取4、查看文件维度、尺寸大小等信息原创 2022-01-11 13:42:40 · 2977 阅读 · 0 评论 -
pandas 在excel里写入多个sheet
原创 2022-01-11 11:38:12 · 257 阅读 · 0 评论 -
pandas 添加一行全nan的数据
data_frame = data_frame.append({"DATA_MONTH": np.nan}, ignore_index=True)原创 2022-01-10 13:55:27 · 723 阅读 · 0 评论 -
Python 将初音未来放到坐标系里展示
import matplotlib.pyplot as pltimg_arr = plt.imread('../img1.png')print(img_arr)运行效果:解析图片后是个三维数组:我们进一步操作:import matplotlib.pyplot as plt img_arr = plt.imread('../img1.png')plt.imshow(img_arr)plt.show()运行效果:老婆到坐标系上了,哈哈哈!...原创 2022-01-10 10:39:19 · 3980 阅读 · 0 评论 -
python 拆分(几G)的tsv文件为较小的csv文件
# 拆分大tsv文件为小一些的csv文件# tsv_name: tsv文件对应的res名字# split_num: 拆分个数def split_data(tsv_name: str, split_num: int): splits_dir = f"./splits_{tsv_name}" if not os.path.exists(splits_dir): os.mkdir(splits_dir) with open(res.FILE_PATH[tsv_na.原创 2022-01-10 10:07:19 · 765 阅读 · 0 评论 -
python 获取数据量大的tsv文件的行数
由于数量量很大,所以一般的遍历方法耗时严重,所以我推荐使用迭代器来做: with open(res.FILE_PATH[tsv_name], encoding="gb18030", errors="ignore") as f: count = sum(1 for _ in f)可以看到迭代4503241行数据的耗时...原创 2022-01-09 18:13:04 · 726 阅读 · 0 评论 -
Python 读入大文件(几GB的tsv)采用分块可提高效率
最近对取一个几GB的tsv文件时发现特别的慢,代码如下: with open(res.FILE_PATH['06'], 'r', encoding="gb18030", errors="ignore") as file: csv.field_size_limit(500 * 1024 * 1024) data = pd.DataFrame(csv.reader(file.readlines(500000000), delimiter="\t"))原创 2022-01-09 15:51:25 · 632 阅读 · 0 评论 -
Python open读取较大文件的方法
之前使用pandas.read_csv()读取一个大文件,花了好长时间才读取完毕,但通过python的open函数打开时效率提高了好几倍。python读取文件的一般方法: file = open(res.FILE_PATH["shop"], 'r', encoding="gb18030") # 读取一定量的文件 print(file.read(5)) # 查看文件格式 print(file) # 逐行读取方法一 line = file.re原创 2022-01-09 13:43:15 · 1364 阅读 · 0 评论 -
UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0xa6 in position 303: illegal multibyte sequence解决
加上encoding="gb18030"即可。原创 2022-01-09 11:43:03 · 396 阅读 · 0 评论 -
python ‘utf-8‘ codec can‘t decode byte 0xbe in position 0
解决方法:将utf-8改为gb18030即可解决。原创 2022-01-08 21:17:34 · 646 阅读 · 0 评论 -
数据分析 pandas库常用操作 (下)
目录1、批量拆分和合并Excel文件2、pandas实现groupby分组统计这里续(中)1、批量拆分和合并Excel文件拆分:def pandas_handle_excel(): work_dir = "./workMerge" splits_dir = f"{work_dir}/splits" ######################### # 拆分 import os if not os.path.exists(split原创 2022-01-05 19:44:44 · 1372 阅读 · 0 评论 -
数据分析 pandas库常用操作 (中)
1、如何避免SettingWithCopyWarning2、pandas数据排序3、字符串处理4、pandas的axis参数的理解5、pandas的index索引的理解6、pandas的merge归并dataFrame简介7、pandas的concat合并dataFrame简介这里续(上)的内容1、如何避免SettingWithCopyWarningdef pandas_warn_deal(): df = pd.read_excel("./testData.xl原创 2022-01-05 13:48:44 · 2449 阅读 · 0 评论 -
数据分析 pandas库常用操作 (上)
目录1、读取文件2、Series3、DataFrame4、pandas查询数据5、新增数据6、统计数据7、数据清洗使用pandas库首先导入:import pandas as pd1、读取文件def pandas_handle_csv(): path = "./tips.csv" # 读取文件 ratings = pd.read_csv(path) # 查看前几行数据 print(ratings.head())原创 2022-01-04 21:50:30 · 1414 阅读 · 2 评论 -
python 变量后加逗号的含义
先上代码:if __name__ == '__main__': a = ['name'][0] b, = ['name'] c = ['name'] print('a:', type(a)) print('b:', type(b)) print('c:', type(c))运行结果:可以看到,“变量后加逗号”就相当于一个一维数组的第一个元素,此时该变量类型为该一维数组对应第一个元素的类型,而直接赋值则不会改变类型仍然是列表。...原创 2022-01-03 13:01:29 · 2726 阅读 · 0 评论 -
将python3项目打包成exe可执行程序
python3项目打包成exe可执行程序 - 测试一枝花 - 博客园转载 2021-12-26 11:00:30 · 119 阅读 · 0 评论 -
Python爬虫 通过Seleium来获取验证码弹窗刷新即出现的网站数据
目录1、验证码识别的几种常用方法2、seleium半自动化破解验证码的实现方法3、seleium配合etree获取当前页面数据并解析1、验证码识别的几种方法。说起图像识别,我们很容易联想到神经网络的图像识别,但对于没有从事人工智能学习的数据采集者而言存在一定难度,而且图像识别有个很大的通病就是识别率再高也未能保证识别完全准确,加上网站数据可能会存在遗漏,这使得验证码识别通常会成为一种干扰,尤其是对于不间断弹出验证码的网站。 (1)图像识别,解决方法1:使...原创 2021-12-26 10:56:03 · 1099 阅读 · 0 评论 -
pycharm中,scrapy导包出错ModuleNotFoundError: No module named xxx问题
首先错误如下:解决方案:找到source root并点击:完美解决:亲测有效!原创 2021-07-30 17:40:59 · 549 阅读 · 0 评论