自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(39)
  • 收藏
  • 关注

原创 电商网站数据预处理

电商网站数据处理(加强版)一、订单数据分析提取2019年的订单数据处理业务流程不符的数据(支付时间早于下单时间、支付时长超过30分钟、订单金额小于0、支付金额小于0)处理渠道为空的数据(补充众数)处理平台类型字段(去掉多余的空格,保持数据一致)添加折扣字段,处理折扣大于1的字段(将支付金额修改为“订单金额*平均折扣”)交易总金额(GMV)、总销售额、实际销售额、退货率、客单价每月GMV及趋势分析(折线图)流量渠道来源拆解GMV占比(饼图)用户复购率分析import numpy as

2021-12-14 20:06:00 771

原创 电商网站数据预处理

电商网站数据预处理提取2019年的订单数据处理业务流程不符的数据(支付时间早于下单时间、支付时长超过30分钟、订单金额小于0、支付金额小于0)处理渠道为空的数据(补充众数)处理平台类型字段(去掉多余的空格,保持数据一致)添加折扣字段,处理折扣大于1的字段(将支付金额修改为“订单金额*平均折扣”)交易总金额(GMV)、总销售额、实际销售额、退货率、客单价每月GMV及趋势分析(折线图)流量渠道来源拆解GMV占比(饼图)用户复购率分析import numpy as npimport pa

2021-12-11 16:39:15 654

原创 Python数据分析练习

Python数据分析练习练习一、用lagou.csv中的数据完成下面的操作:找出各大城市数据分析岗位的需求量并绘制柱状图找出不同领域对数据分析的需求量的占比并绘制饼图分析各个城市的薪资水平并绘制柱状图和折线图df1 = lagou_df[lagou_df.positionName.str.contains('数据分析')]df1# 1. 找出各大城市数据分析岗位的需求量并绘制柱状图ser = df1.city.value_counts()ser.plot(kind='bar', w

2021-12-11 16:25:34 1050

原创 Python数据分析第二周总结

Python数据分析第二周总结一、数据分析五大步骤0.加载数据​ read_csv​ read_excel​ read_sql1.数据抽取​ 布尔索引​ query​ drop2.数据清洗​ 缺失值:isnull,isna, notnull, notna, dropna, fillna​ 重复值:duplicated, drop_duplicates, numique​ 异常值:replace, drop​ 检测异常值:Z-score​ IQR​

2021-12-11 16:13:31 879

原创 Python数据分析第一周总结

Python数据分析第一周总结一、数据分析的介绍1.什么是指标?指标:能够反映业务特征的统计数据就是指标。Database —> DB —> OLTP (Online Transation Procession) —> 业务库Logging日志文件—>Flume/Logstash开发数据集 —> CSV/Excel/Open API —> JSON —>SqoopETL —> Extract Transform LoadData warehou

2021-12-06 14:13:32 631

原创 python基础总结

11月8日总结python复习查找python关键字cmd打开命令提示符窗口,输入python。再输入help(),再输入keywords。ipython - pip install ipthon (python交互式环境)一、golbal和nonlocalPython程序搜索名字的顺序:LEGBLocal —> Embeded —> Global —> Built-ina = 100def foo(): # global a a = 200

2021-11-11 10:05:34 1021

原创 中秋大作业

中秋作业# 1. 判断101-200之间有多少个素数,并输出所有素数。count=0for i in range(101, 201): for num in range(2, i): if i % num == 0: break else: count+=1 print(i)print(count)# 2. 求整数1~100的累加值,但要求跳过所有个位为3的数。sum1=0for i in range(1

2021-11-05 19:24:01 329

原创 9月27日作业

9月27日作业# 初学者定义函数的基本流程# 第一步:确定函数功能# 第二步:根据函数功能确定函数名# 第三步:确定形参(看实现函数的功能需不需要额外的数据)# 第四步:实现函数的功能(将形参当成对应的数据来使用)# 第五步:确定函数返回值# 第六步:写函数说明文档# 1. 编写一个函数,交换指定字典的key和value。例如:dict1={'a':1, 'b':2, 'c':3} --> dict1={1:'a', 2:'b', 3:'c'}def swap_key_valu

2021-11-05 11:50:41 99

原创 9月26日字符串作业

9月26日字符串作业# 1. 输入一个字符串,打印所有奇数位上的字符(下标是1,3,5,7…位上的字符)# str1='abcd1234'# for x in range(len(str1)):# if x % 2:# print(str1[x])str1='abcd1234'print(str1[1::2])# 2. 输入用户名,判断用户名是否合法(用户名长度6~10位)str1 = input('输入你的用户名:')if 6<= len(str) &

2021-11-05 11:50:09 292

原创 9月24日周末作业

9月24日周末作业# 1. 已知一个数字列表,统计偶数的个数s1 = [10, 34, 5, 65, 66, 89, 82]count = 0for x in s1: if x % 2==0: count += 1print(count)# 2. 已知一个数字列表,计算所有元素的平均值s1 = [23, 34, 56, 9, 80]average = sum(s1) / len(s1)print(average)# 3.已知一个列表,统计列表中整数的个数s1

2021-11-05 11:49:07 77

原创 9月22日列表推导式作业

9月22日列表推导式作业# 1.创建一个列表,列表中有10个数字, 保证列表中元素的顺序,对列表进行排重,并对列表使用进行降序排序import randomnums=[random.randint(94, 100) for x in range(10)]print('原列表:', nums)for x in nums: if nums.count(x)>1: nums.remove(x)new_nums=sorted(nums, reverse=True)prin

2021-11-05 11:48:17 190

原创 10月29日学习总结

10月29日学习总结一、利用Python压缩和解压缩数据压缩import gzipimport requestsresp = requests.get('http://www.sohu.com')with open('sohu_index.html', 'w', encoding='utf-8') as file1: file1.write(resp.text) with open('sohu_index.html.gz', 'wb') as file2: #

2021-10-29 19:33:27 92

原创 10月25日学习总结

10月25日学习总结一、复习url=’ ',统一资源定位符params={}, 参数headers={},请求头cookies,浏览器本地存储技术proxies={},代理auth=(),身份验证(发短信用)timeout=5,超时verify,验证响应状态码:2xx - 成功3xx - 重定向4xx - 请求有问题 400 - Bad request 401 - Unauthorized 403 - Forbidden 404 - Not Found 405

2021-10-27 17:52:18 88

原创 10月26日学习总结

10月26日学习总结一、利用Selenium进行反爬使用Selenium的几个要点:1. chromedriver.exe放到系统或用户PATH环境变量下2. 如果没有这么做,也可以在创建浏览器对象时通过executable_path指定chromedriver在什么位置3. 下载的浏览器驱动的版本要跟浏览器的版本尽可能对应,否则会遇到兼容性问题导致代码无法执行from selenium import webdriverfrom selenium.webdriver import Keys

2021-10-27 10:56:29 86

原创 10月8日学习总结

10月8日学习总结一、装饰器1.作用装饰器的作用:给已经写好的函数新增功能2.给函数新增功能1.方案一:接修改原函数,把新增功能添加进去存在的问题:如果多个函数都需要新增相同的功能,相同功能的代码需要写多遍2.方案二:实参高阶函数3.方案三:使用装饰器二、装饰器语法1.固定结构装饰器=实参高阶函数+返回值高阶函数+糖语法# 1.固定结构'''def 装饰器名称(旧函数): def 新函数(*args,**kwargs): result=旧函数(*args

2021-10-23 16:26:20 57

原创 9月30日学习总结

9月30日学习总结一、迭代器1.什么是迭代器(iter)1.迭代器是容器型数据类型2.创建迭代器:(1)将其他序列转换成迭代器(2)创建生成器3.特点a.打印不能查看到迭代器中的元素b.不能通过len获取迭代器中元素的个数c.如果要使用元素必须将元素从迭代器中取出,而且取出后无法放回4.重要结论:不管用任何方式获取到了迭代器中的元素,那么被取到的元素一定会从迭代器中消失。i1=iter('abc')print(i1) #<str_iterator object a

2021-10-23 15:19:30 58

原创 9月29日学习总结

9月29日学习总结一、匿名函数(没有名字的函数)1.本质:匿名函数的本质还是函数,但是匿名函数只能实现一句代码就能实现的功能。语法:lambda 参数列表:返回值说明:lambda - 关键字;固定写法参数列表 - 普通函数写在()中的形参列表: - 固定写法返回值 - 相当于普通函数return后面的值注意:匿名函数需要先保存才能调用函数名=lambda 参数列表:返回值相当于def 函数名(参数列表):​ return 返回值# 练习:写一个匿名函数,判断指定整数是否是偶数

2021-10-23 15:02:05 50

原创 9月28日学习总结

9月28日学习总结一、函数基础1.认识函数a.概念(机器):函数就是对实现某一特定功能的代码的封装b.函数的分类1.系统函数(系统造好的机器) - 由Python创建好的函数,例如:print,input,type,max,min,id等2.自定义函数(自己造机器) - 由程序员自己创建的函数2.定义函数(创建函数)1.语法:def 函数名(形参列表):​ 函数说明文档​ 函数体2.说明:a. def - 关键字;固定写法b. 函数名 - 由程序员自己命名要求:是标

2021-10-23 14:12:13 67

原创 9月27日学习总结

9月27日学习总结一、r语法1.在字符串的最前面加r或者R,可以让字符串中所有的转义字符的功能小时(每个符号都会编程普通字符)二、字符串格式化1.格式化字符串1.语法:包含格式占位符的字符串%(数据1,数据2,…)2.格式占位符%s - 字符串 占位符(任何类型的数据)%d - 整数占位符%f - 浮点数占位符(保留6位小数)%.NF - 浮点数保留N位小数# 1.%s可以给任何类型的数字占位str1='%sxxx'%'小明'print(str1) # 小明xxx# 2.

2021-10-23 11:28:25 57

原创 10月22日学习总结

10月22日学习总结一、通过Cookie向服务器亮明身份,破解封禁IP地址的反爬手段[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Y3A0EQXz-1634953658228)(C:\Users\wby\AppData\Roaming\Typora\typora-user-images\image-20211023093903396.png)]Cookeie是服务器向浏览器写入的临时数据,很多时候被用于用户跟踪(记住这个用户是谁)![img](file:///C:\U

2021-10-23 09:48:29 70

原创 9月26日学习总结

9月26日学习总结一、字符和字符串1.什么是字符串(str)1.数据类型:字符串是容器数据类型,将’’,"",""",""""""作为容器的标志,里面直接是多个符号,每一个符号就是字符串的一个元素,‘元素1元素2元素3…’2.特定:字符串不可变,字符串是有序的3.元素:所有的符号都可以作为字符串的元素;字符串中的元素又叫字符。字符分为普通字符和转义字符两种。# 1) 字符串的元素(字符)可以是任意符号str1 = '实施额且无法shoahfohoi,、=【}????????'print(st

2021-10-22 16:52:01 47

原创 9月24日学习总结

9月24日学习总结一、字典相关操作和方法1.字典不支持+、*、>、<、<=、>=2.字典支持:==、!=print({'a': 10, 'b': 20} == {'b': 20, 'a': 10}) #True3.in 和 not in键in字典 - 判断字典中是否存在指定键d1 = {'a': 10, 'b': 20, 'c': 30}print(30 in d1) # Falseprint('b' in d1) # True4.dict

2021-10-22 10:16:55 38

原创 9月23日学习总结

9月23日学习总结一、元组1.元组的定义1.元组是容器型数据(序列),将()作为容器的标志里面多个元素用逗号隔开:(元素1,元素2,…)2.元组不可变(不支持增删改);元组是有序的(支持下标操作)3.元素:任何类型的数据t1 = (10, 20, 30)print(t1, type(t1))t2 = (10, 'abc', False, [10, 230])print(t2)t3 = () # 空元组print(t3, type(t3))# (10, 20, 30) <

2021-10-22 09:33:08 43

原创 10月21日学习总结

10月21日学习总结一、爬虫的介绍1.法不禁止即为许可,爬虫可以写,但是注意: ~隐匿身份 ~不要被举证有破坏动产的行为 ~不要将代码到处公开 ~尽可能遵守爬虫协议 ---> robots.txt ---> 君子协议2.爬虫的分类: ~通用爬虫(搜索引擎 ---> 什么数据都拿过来) ~定向爬虫(确定目标,只爬取某个领域的数据)3.编写爬虫程序 ~获取网页源代码 ---> HTML code ~解析页面,提取

2021-10-21 20:38:33 61

原创 9月22日学习总结

9月22日学习总结一、列表相关操作1.数学运算符:+、*1.列表1 + 列表2:将两个列表中的元素合并产生一个新的列表。例如:[x, y, z] + [m, n] -> [x, y, z, m, n]2.列表* N/N *列表:列表中的元素重复N次产生一个新的列表(N=正整数)。注意:如果N为0或者负数,结果为[]。N不能等于浮点数nums1 = [1, 2, 3]nums2 = [2, 1]print(nums1 + nums2) #[1, 2, 3, 2, 1]print

2021-10-21 13:24:20 128

原创 9月18日学习总结

9月18日学习总结一、列表基础1.什么是列表a. 列表是Python自带的容器型数据类型,将[]作为容器的标志,里面多个元素用逗号隔开:[元素1、元素 2、元素 3,…]b.列表是可变的(支持增删改);列表是有序的(支持下标操作)c.列表的元素的要求:(1)任何类型的数据都可以作为列表的元素。(2)同一个列表中的数据类型可以不一致。2.空列表list1 = []print(list1, type(list1)# [] <class 'list'>3.列表中的元素lis

2021-10-21 00:15:33 75

原创 9月17日学习总结

9月17日学习总结一. while循环1.while循环(1)语法:while 条件语句:循环体(2)说明:a. while - 关键字,固定写法b. 条件语句 - 任何有结果的表达式c. : - 固定写法d. 循环体 - 和while保持一个缩进的一条或者多条语句;需要重复执行的代码。(3)执行过程:先判断条件语句是否为True,如果为True就执行循环体,执行完循环体再来判断条件语句是否为True,为True就再执行循环体,以此类推,直到判断条件语句的时候为False,整个循

2021-10-20 20:55:26 45

原创 10月20日学习总结

10月20日学习总结一、从PDF中提取文本在Python中,可以使⽤名为 PyPDF2 的三⽅库来读取PDF⽂件,可以使⽤下⾯的命令来安装它库的准备:pip install PyPDF2PyPDF2 没有办法从PDF⽂档中提取图像、图表或其他媒体,但它可以提取⽂本,并将其返回为Python字符串。import PyPDF2from PyPDF2.pdf import PageObjectreader = PyPDF2.PdfFileReader('resources/XGBoost.pdf'

2021-10-20 20:39:16 140

原创 第一周基础练习

第一周基础练习一、选择题1.print(100 - 25 * 3 % 4) 应该输出什么? (B)。A. 1B. 97C. 25D. 02.下列哪种说法是错误的(A)。A. 除字典类型外,所有标准对象均可以⽤于布尔测试B. 空字符串的布尔值是FalseC. 空列表对象的布尔值是FalseD. 值为0的任何数字对象的布尔值是False3.下列表达式的值为True的是(B)。A. 3>2>2B. 1 and 2 != 1C. not(11 and 0 != 2)D.

2021-10-20 20:38:37 113

原创 10月19日学习总结

10月19日学习总结一. HTML1.概念HTML —> Hyper-Text Markup Language,是一种用于创建网页的标准标记语言浏览器相当于是HTML的解释器2.构建标签 —> 内容(内容放到标签中,然后通过层叠样式表进行渲染)层叠样式表(CSS)—> 显示JavaScript —> 行为 ​ 王博杨的技术专栏​ ​ /* 选择器—>通配符选择器 */​ /* 清楚所有标签的内外边距*/​

2021-10-19 23:38:46 70

原创 10月18日学习总结2

10月18日学习总结一、办公自动化:Excel文件读取from datetime import datetimeimport openpyxlfrom openpyxl.cell.cell import Cellfrom openpyxl.chart import Reference, LineChartfrom openpyxl.styles import Alignment, Font, Border, Sidefrom openpyxl.worksheet.worksheet impo

2021-10-19 23:19:30 89

原创 10月15日学习总结

10月15日学习总结"""example01 - 定义列表方法一: 继承list类,再添加我们需要用到的方法debug ---> 调试 ---> 解决缺陷(问题)mobilize ---> demobilizeencode ---> decodemoden ---> moderate / demoderate ---> 调制解调器 ---> 猫我们可以通过继承实现对已有代码的复用,也可以通过委派来实现对已有代码的复用"""class My

2021-10-16 14:05:40 67

原创 10月14日学习总结

10月14日学习总结一、Python异常处理机制代码本身即便没有问题,但在运行时可能因为外部环境或资源的问题,导致代码无法运行,程序出现异常状况 ,如果异常状况没有得到处理,那么程序就会崩溃,具体的表现就是代码直接停止运行。如果不希望程序崩溃,就有对代码进行异常状况的处理,在Python中,可以使用try语法将可能出现状况的代码保护起来执行,在出现状况的时候,使用except进行异常状况捕获并给出相应的处理import timewhile True: # 用try把可能常出现异常状

2021-10-16 14:04:58 62

原创 10月13日学习总结

10月13日学习总结一、面向对象的应用练习一、定义类描述平面上的点,提供移动点、计算一个点到另一个点距离的方法。def _ _ repr _ _(self) / def _ _ str _ _(self):显示自定义的内容"""example01 - 定义类描述平面上的点,提供移动点、计算一个点到另一个点距离的方法"""class Point: def __init__(self, x, y): self.x = x self.y = y

2021-10-16 14:04:26 57

原创 10月12日学习总结

10月12日学习总结一、读取csv文件1. csv.reader(文件名, delimiter=’’, quotechar=’’)delimiter参数默认是逗号,但是如果值不是用逗号分隔的就要重新设定quotechar参数默认值是引号,但是如果值不是用引号包围的就需要重新指定import csv# utf-8-sig ---> 带签名的UTF-8 ---> 有字节序标记with open('resources/2018年北京积分落户数据.csv', 'r', encodin

2021-10-16 14:03:49 58

原创 10月11日学习总结

10月11日学习总结一、练习:将100以内的素数输入到一个文件中def is_prime(num:int) -> bool: """ 判断一个正整数是不是质数 :param num: 正整数 :return: 质数返回True,否则返回False """ for i in range(2,sqrt(num)+1): if num%i == 0: return False return Truewit

2021-10-16 14:02:51 61

原创 9月15日学习总结

9月15日学习总结一. 变量1. 同时定义多个变量同时定义多个变量赋相同的值:变量名1 = 变量名2 =变量名3 = … = 数据。x = y = z = 0print(x, y, z)同时定义多个变量赋不同的值:变量名1. 变量名2, 变量名3,… = 数据1, 数据2, 数据3,…。❗️ 注意:赋值的数量与变量的数量必须保持一致。name, age, gender = '小明', 30, '男'print(name, age, gender)2. 变量重新赋值

2021-10-16 14:02:21 79

原创 9月14日学习总结

9月14日学习总结一. PyCharm的基本操作新建工程:如果打开后是以前的project,在File下点New Projecta. Location包含两个信息:新建工程保存路径+工程名称(实际开发时工程名必须用英文)b. Python Interpreter:运行程序时使用的解释器二. Python的基础语法注释的定义:注释就是代码中不参与编译(解释)执行的部分。注释的存在不影响程序的功能。注释在代码中的作用:a. 对代码进行注解和说明(让程序员在读代码的时候更轻松)b. 让程

2021-10-15 20:15:57 63

原创 9月16日学习总结

9月16日学习总结1.for循环语法:for 变量 in 序列: 循环体说明:a.for - 关键字;固定写法b.变量 - 变量名,和定义变量的时候的变量名要求相同c.in - 关键字;固定写法d.序列 - 任何容器型数据类型,比如:字符串、列表、元组、字典、集合、迭代器、生成器、range等e. : - 固定写法f. 循环体 - 和for保持一个缩进的一条或者多条语句;需要重复执行的代码执行过程:让变量去序列中取

2021-10-15 19:20:47 51

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除