Haaaley-CSDN博客

原创【Python_046】网页爬虫（绕过SSH认证）

此篇博客介绍如何用python进行网页爬虫，对一些需要登陆的网页可绕开SSH认证STEP 1 从谷歌商店下载chromedriverSTEP 2 把文件放在local/bin 文件夹下，由于我用anaconda, 所以我放置的文件夹是anaconda3/binfrom selenium import webdriver#1.创建Chrome浏览器对象，这会在电脑上在打开一个浏览器窗口，此步会直接绕过SSH认证browser = webdriver.Chrome()#2.通过浏览器向.

2022-04-26 15:53:31 2185

原创【Excel VBA】一键取消excel中所有隐藏sheet

本篇博客分享在Excel中通过设置VBA，一键取消excel中所有隐藏sheet[Developer] - [Visual Basic]复制下列代码Sub unhide_all_tabs()Dim i As IntegerFor i = 1 To Sheets.Count Sheets(i).Visible = TrueNext iEnd Sub把该excel另存为 xlam格式打开新的excel，就可以运行。也可以自定义添加在工具栏上...

2022-01-20 12:25:01 2086

原创 MAC 常用快捷键，生产力提升X10000

因工作关系，新换的电脑为macbook，第一次用OS系统工作，对各种快捷键摸索了好一阵。以此篇博客记录一下，常用到的快捷键写在前面mac中快捷键主要用到三个：Command ⌘Option ⌥Shift ⇪Control ⌃其中，Command ⌘相当于win系统中的ctrl，用惯win的同学可以先试着把ctrl换成command试试看，80%快捷键都通用窗口操作Command ⌘ + Tab – 切换应用Command ⌘ + ~ – 切换同一应用中不同窗口Comma.

2022-01-07 21:36:13 774

原创【Python_045】pandas读取csv | 设置显示所有列 | 只读取某几列前几行

本篇介绍一些pd.read_csv不常用但方便的小技巧设置显示所有列import panda as pddf = pd.read_csv(r"C:\Users\Haley\Desktop\Test.csv")pd.set_option("display.max.columns",None)df只读取某几列import panda as pddf = pd.read_csv(r"C:\Users\Haley\Desktop\Test.csv", usecols=['COL1','COL2.

2021-03-22 18:00:59 5936

原创【Python_044】当Pandas遇上Numpy

题目来源于和鲸社区，之前几篇链接????????pandas数据处理Pandas基础 | 实战# 1.导入并查看pandas与numpy版本import pandas as pdimport numpy as nppd.__version__np.__version__# 2.从NumPy数组创建DataFrame#备注使用numpy生成20个0-100随机数，以下都是随机数df1 = pd.DataFrame(np.random.randint(1,100,20))# 3.从

2021-03-21 21:52:03 804

原创【Python_043】pandas 金融数据处理实战

数据集与题来源于和鲸社区# 1.使用绝对路径读取本地Excel数据import pandas as pddf = pd.read_excel(r"D:\Haley\Python Project\600000.SH.xls",converters={'A股流通市值(元)':str,'总市值(元)':str,'A股流通股本(股)':str})# 2.查看数据前三行df.head(3)'''日期代码简称前收盘价(元) 开盘价(元) 最高价(元) 最低价(元) 收盘价(元) 成交量(股) 成.

2021-03-20 22:29:17 862 1

原创【Python_042】Pandas数据处理

来源和鲸社区和鲸训练营第二期第一期笔记见Pandas基础 | 实战import pandas as pdimport numpy as np# 1.读取本地EXCEL数据df = pd.read_excel(r"E:\pandas120.xlsx")# 2.查看df数据前5行df.head()'''createTime education salary0 2020-03-16 11:30:18 本科 20k-35k1 2020-03-16 10:58:48 本科 20k-.

2021-03-18 15:35:07 371 1

原创【Python_041】Pandas基础 | 实战

pandas 用法千千万，没有实战一个语法都记不住。本文例题来自和鲸训练营，非广，亲测社区干货很多

2021-03-17 23:12:45 291 1

原创【Python_040】遍历excel中多个sheet合并数据

之前分享过合并多个excel，详见用PowerQuery合并多个execl文件遍历文件夹中所有excel合并到一个文件中本篇博客介绍遍历excel中多个sheet合并数据import xlrdimport pandas as pdexcel = r"C:\Users\Haley\Desktop\file_name.xlsx"wb = xlrd.open_workbook(excel)sheets = wb.sheet_names()alldata = pd.DataFrame().

2021-03-16 14:07:53 660

原创【Python_039】anaconda安装配置 | Jupyter Notebook配置

写了这么多篇关于py的博客，本篇介绍一下anaconda的安装，之前踩了不少坑。毕竟对新手来说，py就是从安装到放弃。希望本篇博客可以帮助到大家anaconda安装配置这篇教程很全面，对于这部分我不过多赘述，大家可以直接移步这篇????anaconda的安装与环境配置jupyter 自定义存放路径在cmd输入 jupyter notebook --generate-config根据上述路径找到上述文件，然后用记事本或者notepad ++ 打开找到 #c.NotebookApp.no

2021-03-03 20:44:12 897 2

原创【Python_038】算法 | 狄克斯特拉算法(Dijkstra)

上篇博客介绍了广度优先搜索。本篇博客介绍狄克斯特拉算法，可以算是BFS进阶版（加上了权重的考量）书籍参考：《算法图解》狄克斯特拉算法找出加权图中前往X的最短路径狄克斯特拉算法只适用于无负权重的有向无环图（无向图意味着两个节点彼此指向对方，其实就是环）有负权重的参考贝尔曼-福德算法（Bellman-Ford algorithm）算法思路：找出“最便宜”的节点，即可在最短时间内到达的节点。对于该节点的邻居，检查是否有前往它们的更短路径，如果有，就更新其开销（找出图中最便宜的节点，并确保.

2021-02-18 17:07:37 250

原创【Python_037】算法 | 广度优先搜索BFS

本篇博客介绍广度优先搜索 (breadth-first search, BFS)广度优先搜索一种图算法可回答用于两类问题：从节点A出发，有前往节点B的路径吗？从节点A出发，前往节点B的路径中哪条路径最短？本质上就是一个队列（先进先出，也称为FIFO – First In First Out）具体实例*上图源于《算法图解》问题：利用BFS找到最近的名字结尾带M的朋友算法思路：从自己开始，依次检查自己的一度好友若一度好友中没有符合条件的名字，则将好友的好.

2021-02-18 11:13:23 168

原创【Python_036】算法 | 快速排序

上回书说到选择排序，本篇博客介绍快速排序在介绍选择排序之前，先介绍递归的概念。递归递归函数组成部分：基线条件（函数不再调用自己，从而避免形成无限循环）递归条件（函数调用自己）def fact(x): if x == 1: #基线条件 return 1 else: return x*fact(x-1) #递归条件 fact(5)快速排序思路：选择数组第一个数为基准（pivot）依次将数组中的数与基准比较大小，将整个.

2021-02-10 16:52:43 185

原创【Python_035】算法 | 选择排序

本篇博客介绍选择排序思路遍历列表，找到最小 / 最大的元素，放入新列表中。如此循环，直到旧列表中没有元素为止代码实现def findSmallest(arr:list)->int: smallest = arr[0] smallest_index = 0 for i in range(1, len(arr)): if arr[i]<smallest: smallest = arr[i] .

2021-02-09 15:39:17 257

原创【Python_034】算法 | 二分法

本篇博客介绍用Python实现二分法。算法小白要从开始研究算法，从二分法入门再好不过。书籍参考：《算法图解》概念二分查找是一种算法，其输入是一个有序的元素列表。如果要查找的元素包含在列表中，二分查找返回其位置；否则返回null一般而言，对于包含n个元素的列表，用二分查找最多需要log2n步，而简单查找最多需要n步代码实现def binary_search(bucket:list, item:int)->int: low = 0 high = len(bucket).

2021-02-09 10:40:32 306 1

原创【Excel_007】利用excel进行线性规划求解

本篇博客分享利用excel进行线性规划求解。应用场景：有一个总和，由一列数字中的某几个数字相加得来，找出具体是哪几个数字先把线性规划的工具打开【文件】-【选项】-【加载项】-【转到】勾选上规划求解加载项。打开后可在【数据】选项卡中，【分析】面板中找到【规划求解】源数据这里简单演示。右边的总和12 是由左边的数字1-5中某几个数字相加而来。我们需要找出是哪几个数字相加步骤在空白单元格中输入公式 =SUMPRODUCT(A2:A6,B2:B6)，我这边输在了C1单元格sump.

2021-01-13 17:46:08 2339

原创【Python_033】reset_index 用法 | 清洗mapping表

本篇介绍dataframe索引用法索引基本操作df.columns = [list1] #列索引 aka 字段名df.index = [list2] #行索引 aka 每行记录索引#设置索引df.set_index('col_name')#重命名索引df.rename(columns = {'old_name':'new_name'}) #或者是index = dict1重置索引#重置索引就是把索引重新作为列使用df.reset_index(level=None, dr.

2020-12-09 11:27:01 461

原创【Excel_006】利用数据验证创建二级关联下拉菜单

本篇博客介绍利用数据验证创建二级关联下拉菜单。可达到筛选器/切片器的效果数据源步骤先做大类验证。选中源数据，Ctrl+G 调出定位窗口，选择【定位条件】，选择【常量】选择【公式】-【根据所选内容创建】-【首行】在二级菜单处，选择【数据验证】-【序列】-输入 INDIRECT($F$2)大功告成...

2020-12-07 12:48:30 4607

原创【Python_032】数据逆透视，melt()用法

之前介绍了在python中拉数据透视表，pd.pivot_table()函数用法，本篇博客介绍其逆操作df'''City 2020 2021上海 100 200北京 300 400'''df.melt(id_vars=['City'], var_name ='Year', value_name='Sales')'''City Year Sales0 上海 2020 1001 北京 2020 3002 上海 2021 2003 北京 2021 400'''#id_var.

2020-10-27 17:00:11 1807

原创【Python_031】查看 | 删除 | 填充缺失值

拿到一份脏数据时，缺失值的处理是很重要的一个步骤。本篇博客分享如何用Python查看、删除、填充缺失值查看缺失值： df.info() df['col_name'].isnull() #但数据量多时用这条看不清楚...删除缺失值： df.dropna(thresh=len(df)*0.8, axis=1) #thresh参数含义，某行或某列起码有thresh个非NA数。 #以上表示如某列缺失值超过20%,则删除 df.dropna(how='al.

2020-10-24 22:05:23 1137

原创【Python_030】python中函数的按值传递和按引用传递

学到函数就必定会踩的坑先回顾下概念：按值传递：用变量的值取代函数的参数。函数中值发生变化，该变量值不变按引用传递（按地址传递）：函数中值发生变化，该变量一起变化。可认为函数参数是变量的一个别名Py处理方式如果变量指示一个可变的值（列表 | 字典 | 集合），py按引用调用。如果指示一个不可变的值（字符串 | 整数 | 元祖），则按值调用以下分享一个Tricky Pointsdef double(x:list): print(f"Before:{x}") x .

2020-10-23 12:18:47 526 1

原创【Python_029】内置数据结构，列表 | 字典 | 集合 | 元组

最近重学python基础，感觉基础知识还是得扎实才能走得更远，整理了一些笔记和大家分享。参考书目：《Head First Python》列表remove只能在知道要删的值时使用, pop取可选索引值作为参数test = [1,2,3,4]test.remove(3)test'''[1,2,4]'''test.pop(1)test'''#pop 不指定参数则默认弹出最后一个。 pop的元素可被解释器回收，也就是可被赋值如 x = test.pop(),但remove不可.

2020-10-22 20:19:32 232 1

原创【Python_028】一元线性回归

本篇博客分享使用python进行一元线性回归源数据：代码实现：import pandas as pd from sklearn.linear_model import LinearRegression #线性回归import numpy as npimport matplotlib.pyplot as pltdata = pd.read_excel(r"C:\Users\Haley\Desktop\linear regression test.xlsx")X = data[['X.

2020-09-28 11:44:00 211

原创【Python_027】np.linspace用法 --建立等差数列

本篇博客介绍np.linspace用法np.linspace用来建立等差数据用法：np.linspace(start,end, num, endpoint=True)参数含义：start：开始的点end：结束的点num: 数列中点的个数endpoint：是否包含end，默认为True（包含）即：当endpoint = True时， interval = (end-start) / (num-1)当endpoint = False时，interval = (end-start) / .

2020-09-21 14:37:30 1016

原创【Python_026】stack()与unstack()函数用法

本篇博客分享python中stack()与unstack()函数用法一维表和二维表我们最常用的源数据就是一维表，每个index都在行上。例如下图经过了pivot之后的表为二维表,如下图stack()stack()就是把二维表转化成一维表（stack为堆叠的意思，就是把所有的index都堆在行上）unstack()unstack() 则为stack的逆函数，即把一维表转化成二维表的过程实例说明import pandas as pdimport numpy as npdata=p.

2020-09-07 19:35:51 7544

原创【Python_025】解决jupyter notebook 画图不显示及在深色背景下图表坐标看不清

本篇博客分享一下解决jupyter notebook 画图不显示及在深色背景下图表坐标看不清画图不显示在import 各种包最后加上一行%matplotlib inline 这行代码用在Jupyter notebook中具体作用是当你调用matplotlib.pyplot的绘图函数plot()进行绘图的时候，或者生成一个figure画布的时候，可以直接在你的python console里面生成图像。图表坐标看不清我把我的jupyter notebook设置为了深色背景，在此再次安利.

2020-09-06 11:47:28 6368 3

原创解决github无法显示图片

下午登录github发现md文件无法显示图片网上一顿搜。这篇博客记录一下解决方法。在此路径下找到hosts文件，打开后在末尾加入如下文字：# GitHub Start 192.30.253.112 Build software better, together 192.30.253.119 gist.github.com151.101.184.133 assets-cdn.github.com151.101.184.133 raw.githubuserconte.

2020-09-05 22:11:32 214

原创【Excel_005】excel实现分步长分组

本篇博客介绍实现分步长分组源数据步骤创建一个数据透视表，把字段拖到相应位置右键，选择【创建组】选择想要的步长然后就tada~更新好了

2020-09-03 13:35:11 6157

原创【Python_024】python实现 count distinct

之前整理过一篇sql语法在pandas中的实现其中只分开说了count和distinct，今天终于发现了count distinct的用法count distinct 用nuniqueimport pandas as pda=[['A',1,'aa'],['A',2,'aa'],['B',3,'aa'],['C',4,'bb']]df = pd.DataFrame(a)df.columns = ['Type','Num','type2']dfdf.groupby('Type').

2020-08-26 17:17:04 4326 1

原创【Excel_004】文本转数字，数字转文本

excel中最常用到函数是Vlookup，但是Vlookup要求数据格式相同，但经常会碰到一列是文本，一列是数字的情况。本篇博客介绍如何在excel中文本和数字互相转文本转数字使用分列功能但对于长数字不推荐使用文本转数字，转成数字后 excel会吞位，末尾几位会变成000，如下图：数字转文本同样使用分列功能注：如果在源数据基础上使用设置单元格格式-设置为文本，这一方法是没有用的，得用上述的分列才可以...

2020-08-14 17:57:00 476

原创【Excel_003】同一切片器联动不同数据源

本篇博客分享用同一切片器联动不同数据源，再一次感叹power pivot的强大！excel切片器默认情况下，只能对同一数据源做联动，插入切片器后，右键-【报表连接】，然后选择多个透视表就可如果对不同数据源，就要用power pivot进行连接，类似于SQL中的Join先选中Ctrl+T 转成表格后，选择【Power Pivot】-【添加到数据模型】源数据展示：打开Power Pivot页面后，点击【关系图视图】，开始创建连接，只要把关联的字段从一张表拖到另一张表要连接的字段就可以创.

2020-08-11 20:03:02 18810 2

原创【Python_023】解决pandas读excel中长数字变成科学计数法的问题

pandas 读excel中的长数字时，即使excel中已经设置为文本，读进df后也会自动变成科学计数法。本篇博客介绍解决方法源数据：import pandas as pddata_path = r"C:\Users\Haley\Desktop\order.xlsx"data = pd.read_excel(data_path)data.head()结果：解决方法：import pandas as pddata_path = r"C:\Users\Haley\Desktop\or.

2020-07-29 10:11:27 9812

原创【powerBI_001】DAX函数之RELATED和RELATEDTABLE用法

最近在研究powerBI发现了RELATED和RELATEDTABLE这俩函数，虽然在SQL里解决完再上传到powerBI里更省事，但是还是得感叹一下微软底层设计的强大！假设有两张表，一张销售明细表，一张商品信息表。展示一下源数据：销售明细表商品信息表RELATED用于多端找一端，可以理解为excel中的vlookup显而易见，销售明细表是多端，商品信息表是一端。如果想要在销售明细表中新增一列销售金额，可以利用RELATED函数首先先建一个度量值总销售数量 = SUM('.

2020-07-25 22:45:12 6875 2

原创【Excel_002】用PowerQuery合并多个execl文件

之前写过用python实现把多个excel文件合并到一个excel中，详见【Python_008】遍历文件夹中所有excel合并到一个文件中今天发现excel自己也可以实现这个功能！不得不说excel还是很强大的！源数据如下：有储存在同一个文件下下的四份文件，文件格式和字段都是相同的。步骤：【数据】-【新建查询】-【从文件】-【从文件夹】选择文件存放的文件夹后，会进入查询编辑器，这时数据都被存放在Content列中【转换列】-【添加自定义列】-输入公式：Excel.Wor.

2020-07-23 18:26:08 1242

原创【Tableau_001】散点图中自定义形状

如题。tableau中可选形状不是很多，若想要对分析报告进行定制化，可以使用自定义形状。给大家安利一个网址：iconfont上面可以搜到很多好看的icon，也可以任意更改颜色在Tableau中更改自定义形状很简单，一共三步走准备好想要的图案（可以在上面的网址去下载）然后贴到如下路径中打开tableau,点击【形状】-【更多形状】-【重载形状】，就可以看到刚才新增的形状。...

2020-07-17 10:41:33 966

原创【Excel_001】excel中图表下拉菜单实现动态图表

如题。本篇博客介绍两种方法均已这份sample data作距离方法一（简单粗暴）只需三步走选中数据 - 插入数据透视图 - 拖动对应字段方法二（高阶版）先把数据转换成如下格式我们以下拉框中要选城市作为示例，把城市列转制后贴到新的单元格中选择【开发工具】 - 【插入】 - 【窗体控件】，长这样：选中控件，右键，设置控件格式数据源区域选中刚才新贴出的城市列，单元格链接选择一个空白单元格接下来做图表需要用到的数据，用到函数CHOOSE()，具体操作见下图6.选中上述完成的R.

2020-07-07 17:50:32 1911

原创【Python_022】matplotlib.pyplot中plot用法

本篇博客介绍一下matplotlib.pyplot中plot用法，主要用来画线图首先当然是需要导入模块import matplotlib.pyplot as plt语法：plt.plot(x, y, format_string, **kwrags)常用参数：ColorLinestyleSpots实例import numpy as npimport pandas as pd import matplotlib.pyplot as pltx = np.arange(1,.

2020-07-06 16:46:09 407

原创【Python_021】pandas中query用法

之前写过一篇【Python_017】sql语法在pandas中的实现但总觉得dataframe用来定位特别麻烦，不如sql简单易读。直到发现pd.query！！基本上四舍五入和sql的where非常接近了！以一个简单df举例import pandas as pd df = pd.DataFrame({'A':[1,2,3],'B':[4,5,6],'C':['aaa','bbb','bbb']})df.query("C=='bbb'")''' A B C1 2 5 bbb2 3 .

2020-07-02 15:53:39 4874

原创【Python_020】os.path中利用split和splitext分离路径/文件名/文件扩展名

os.path.splitext(file_path) #分离扩展名os.path.split(file_path) #分离路径和文件名'''data_path = r"C:\Users\Haley\Desktop\sample data.xlsx"os.path.splitext(data_path)Out[6]:('C:\\Users\\Haley\\Desktop\\sample data', '.xlsx')os.path.split(data_path)Out[7]:('C

2020-06-21 09:53:02 689

原创【Python_019】panda中series转成DataFrame

Series：一维数组DataFrame：可以理解为共享同一个的index的多个一维数组在panda中如果只有一列数据时，数据类型就会自动转换成series。但总觉得series用起来不如DataFrame顺手。本篇介绍一下series转DataFrame：df = s.to_frame()如果觉得想要把index也作为dataframe的一部分：df = s.to_frame().reset_index()...

2020-06-13 22:47:43 1980

空空如也

空空如也