自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(43)
  • 收藏
  • 关注

原创 kaggel-汽车价格预测项目

可以看到在Levy中‘-’有5819条记录,Engine volume这个特征有些带有单位Turbo,Doors特征带有特殊英文和大于号,Mileage特征带有km单位,Prod. year 特征代表的是汽车是哪一年生产的,需要根据这个计算汽车的已经使用了多少年。我们将在接下来的数据清洗步骤,解决这些问题。

2024-06-30 09:54:51 165

转载 Self-Attention LSTM教程:一步步实现文本分类

LSTM实现文本分类

2024-06-25 10:36:08 16 1

原创 文本分析-中文停用词集合(结合百度停用词表、哈工大停用词表、四川大学机器智能实验室停用词库、中文停用词表等)

整理去重,百度停用词表、哈工大停用词表、四川大学机器智能实验室停用词库、中文停用词表等

2024-06-23 13:11:01 173

原创 文件的读取特定行数及合并文件

python 的文件读取与合并

2024-06-21 17:18:08 89

原创 matplotlib 创建多个子图

matplotlib多个子图

2024-06-21 15:20:04 227

原创 python Format函数

python format f-字符串格式

2024-06-20 17:45:18 75

原创 Bert模型实现中文新闻文本分类

Bert模型实现文本分类,代码实现。

2024-06-20 11:19:42 298

原创 Python 二叉数的实例化及遍历

二叉树的定义及遍历

2024-06-02 11:38:27 229 1

原创 Pytorch nn.Linear()

nn.Linear就是神经网络中的线性层,类似于数学中的线性函数,可以实现形如y=X*weight^T+b的功能。我们输入有3个特征 x1,x2,x3,bias=False,所以方程式为y=w1*x1+w2*x2+w3*x3。

2024-03-29 12:22:41 332

原创 python 3D散点图

【代码】python 3D散点图。

2024-02-21 11:15:58 445

原创 python dir()函数

dir()函数是python 中的一个内置函数,用于查找对象的属性和方法,返回的是一个字符串列表。也可以查看自己定义的函数的属性和方法。

2024-02-21 11:05:47 201

原创 Python 饼图、圆环图

数据可视化-饼图

2023-12-19 17:26:14 447

原创 Counter统计列表中元素出现次数

python统计列表中元素出现的次数

2022-10-30 18:36:26 411 1

原创 pyecharts 旭日图

pyecharts 旭日图

2022-10-02 15:50:28 1954 1

转载 Tableau常用函数

1.ABS(number)——返回给定数字的绝对值。ABS(-7) = 7ABS([字段])=字段中包含的所有数字的绝对值2.ATTR(expression)——如果它的所有行都有一个值,则返回该表达式的值。否则返回星号。会忽略 Null 值。其实维度也可以用聚合函数来聚合的,只是大多数维度是字符串,没办法用sum之类常用聚合函数,但max和min却是数字和字符串通吃。所以你要是愿意,用max或min来代替掉attr()也行,又其实,attr的...

2021-12-19 21:12:59 1944

原创 Tableau制作分页报表

需求如下:制作各省售电量当期值与同期值变化情况的倾斜图,需要在便签中显示出排名、省份、累计值,其中累计值以M作为单位显示格式。创建排名字段,使用Index()函数index()返回分区中当前的索引,个人觉得把“索引”两个字换成“行号”更好理解,严谨一些的说法是,根据特定排序规则返回分区中当前行号...

2021-12-12 22:06:45 766

原创 EXCEL 二级连动下拉菜单

有这样一个表格,需要制作省份和城市之间的二级连动下拉菜单。1.首先在公式选项卡中找到定义名称,将吉林省下的城市A4-A13定义为吉林省。江苏省和广东省同理。2.数据——数据验证——填写省份序列3.数据验证-调用indirect()函数indirect函数是引用,并显示其内容。...

2021-12-03 22:37:01 1523

原创 python 闭包和装饰器

闭包定义:1.函数嵌套2.内部函数使用外部函数3.返回内部函数#定义外部函数def outer(n):#定义内部函数 def inner(): b=10 #调用外部函数参数 a=b+n c=b/2 print(a) return c #返回内部函数 return innerr=outer(5)print(r)#返回outer函数的地址out:<funct

2021-11-24 22:44:28 568 1

转载 机器学习常见面试题

逻辑回归面试题逻辑回归为什么要对特征进行离散化?在工业界,很少直接将连续值做啥逻辑回归模型的特征输入,而是将连续特征离散化为一系列0、1特征交给逻辑回归模型,优势如下:1、离散特征的增加和减少都很容易,易于模型的快速迭代;2、稀疏向量内积乘法运算速度快,计算结果方便存储,容易扩展;3、离散化后的特征对异常数据有很强的鲁棒性:比如一个特征是年龄>30是1,否则0。如果特征没有离散化,一个异常数据“年龄300岁”会给模型造成很大的干扰;4、离散化后可以进行特征交叉,由M+N个变量变

2021-11-24 19:36:29 553

原创 MYSQL lag()和lead()函数用法

这两个函数是偏移量函数,可以查出一个字段的前面N个值或者后面N个值,配合over来使用。下面举例说明,新建表格如下:drop table if exists exam_record;CREATE TABLE exam_record ( id int PRIMARY KEY AUTO_INCREMENT COMMENT '自增ID', uid int NOT NULL COMMENT '用户ID', exam_id int NOT NULL COMMENT '试卷ID',

2021-11-23 13:41:02 12258 3

原创 MYSQL 时间函数

现有表login如下:1.now()可以得到当前时间2.date_format()%W 星期名字(Sunday……Saturday) %D 有英语前缀的月份的日期(1st, 2nd, 3rd, 等等。) %Y 年, 数字, 4 位 %y 年, 数字, 2 位 %a 缩写的星期名字(Sun……Sat) %d 月份中的天数, 数字(00……31) %e 月份中的天数, 数字(0……31) %m 月, 数字(01……12) %c 月, 数字(1……12) ...

2021-11-22 22:31:21 87

转载 K-means原理分析

  K-Means算法是无监督的聚类算法,它实现起来比较简单,聚类效果也不错,因此应用很广泛。K-Means算法有大量的变体,本文就从最传统的K-Means算法讲起,在其基础上讲述K-Means的优化变体方法。包括初始化优化K-Means++, 距离计算优化elkan K-Means算法和大数据情况下的优化Mini Batch K-Means算法。1. K-Means原理初探    K-Means算法的思想很简单,对于给定的样本集,按照样本之间的距离大小,将样本集划分为K个簇。让簇内的点尽量紧密的连

2021-11-17 20:39:28 303

原创 深圳二手房房价分析及预测

分析目标: 通过处理后的房价数据,筛选对房价有显著影响的特征变量。 确定特征变量,建立深圳房价预测模型并对假设情景进行模拟 数据预处理 import pandas as pdimport osfile_path="D:\Python数据分析与挖掘实战\深圳二手房价分析\data"#读取file_path目录下的所有文件file_name=os.listdir(file_path)df=pd.DataFrame()lis=[]#使用两种方法读取数据for i in fil...

2021-11-15 22:19:19 4734 6

原创 Excel2010 count,countif,countifs使用

count函数的语法格式定义为计算区域中包含数字的单元格个数。COUNT(value1,value2, ...)Value1 必需。 要计算其中数字的个数的第一项、单元格引用或区域。value2, ... 可选。 要计算其中数字的个数的其他项、单元格引用或区域,最多可包含 255 个。例如:要计算发生额的记录数。countif函数的语法格式=countif(range,criteria)参数range 表示条件区域——对单元格进行计数的区域。参数crit...

2021-11-13 15:07:20 1483

原创 Excel2010 IF函数的使用

分类汇总就是把一些数据按照一个标准进行分类,然后按照相应的汇总方式进行汇总。使用分类汇总之前先排序,否则汇总会出现很多类。看如上这个表,如果按照所属区域分类,然后按照金额的总和汇总,在汇总之前就要按照区域来排序,顺序还是倒序无所谓,排序主要是想让相同地区的数据在一起。点击数据->分类汇总,按照这种方式就可以进行分类汇总了,结果如下:双击边框,自动扩大宽度。删除分类结果:如何先按照地区分类,再按照产品类别进行分类汇总呢?分地区与产品分类统计数量、金

2021-11-13 13:45:28 1273

原创 淘宝用户行为分析

数据来源:https://tianchi.aliyun.com/dataset/dataDetail?dataId=46&userId=1一、项目背景本数据报告以淘宝app平台为数据集随机选取了大约 100 万用户在 2017 年 11 月 25 日至 12 月 3 日期间具有点击、购买、添加商品到购物车和商品偏好等行为。二、项目目标通过行业的指标对淘宝用户行为进行分析,从而探索淘宝用户的行为模式,具体指标包括:日PV和日UV分析, 付费率分析, 复购行为分析, 漏斗流失.

2021-11-12 20:15:15 1619

原创 教育平台的线上课程智能推荐策略

题目来自:http://www.tipdm.org一、 背景近年来,随着互联网与通信技术的高速发展,学习资源的建设与共享呈现出新的发展趋势,各种网课、慕课、直播课等层出不穷,各种在线教育平台和学习应用纷纷涌现。尤其是 2020 年春季学期,受新冠疫情影响,在教育部“停课不停学”的要求下,网络平台成为“互联网+教育”成果的重要展示阵地。因此,如何根据教育平台的线上用户信息和学习信息,通过数据分析为教育平台和用户提供精准的课程推荐服务就成为线上教育的热点问题。本赛题提供了某教育平台近两年的运.

2021-11-08 11:35:19 4572 2

原创 2020年“泰迪杯”数据分析职业技能大赛B题疫情数据分析

一、背景2020年1月新型冠状病毒(以下简称新冠)肺炎在极短时间内就在全球范围内大规模流行,据美国约翰斯·霍普金斯大学11月8日发布的新冠疫情最新统计数据显示,截至美国东部时间11月8日11时24分全球累计确诊人数超过5000万,死亡人数超过125万。由于新冠病毒的传播速度快、致死率较高,世界卫生组织称新冠是百年一遇的人类公敌。自新冠肺炎爆发以来,面对社会对疫情信息的迫切需求,各级政府部门通过多种渠道及时发布第一手相关数据,许多组织和个人也迅速行动,利用多种分析手段为公众提供疫情数据的解读分析,以消除公众

2021-11-03 21:03:00 8682 3

原创 机器学习(scikit-Learn)

# 导入python自带的数据集,及svm训练模型from sklearn import datasetsfrom sklearn import svm# 对预测模型进行打分,精确度from sklearn.metrics import accuracy_score# 导入 iris数据集和digits数据集iris=datasets.load_iris()digits=datasets.load_digits()# 查看数据集# print(iris.data)# # 数据集规模#.

2021-11-01 22:06:36 696

原创 Tableau习题2:折线图,环形图

作业要求:使用“豆瓣电影数据.xlsx”文件,完成以下作业;1、制作电影数量折线图(以此命名),横轴为时间,排除2016年的数据,显示标签,标记出最大值信息,将标记的线条颜色设为黑色,线末端使用箭头,导出图像,并对折线图进行分析;2、绘制剧情、喜剧、动作三种类型电影环形图(以此命名),要求空心内部显示三种电影的总记录数(提示:27461),显示电影类型标签及总额百分比,导出图像,不显示说明,选择图例在下;分析环形图数据;导入数据,折线图...

2021-11-01 20:01:41 2678

原创 Tableau直方图,条形图

作业要求:1、导入“豆瓣电影数据.xlsx”文件;2、绘制各国家电影数量条形图(按此命名工作表),要求为横向条形图,按照升序排列,条形图顶部要有标签(要全部显示),选择整个视图将图表充满整个视图区,并给出分析结论;3、创建电影评分的直方图(按此命名),数据间距为0.5分,修改底部数字标签,以实际评分区间为底部标签数值,标签要显示完整,并分析电影评分直方图。数据导入 产生条形图 产生直方图...

2021-11-01 16:01:02 861

原创 项目1:pandas数据分析之商铺数据清洗

作业要求:1、成功读取“商铺数据.csv”文件2、解析数据,存成列表字典格式:[{‘var1’:value1,‘var2’:value2,‘var3’:values,…},…,{}]3、数据清洗:① comment,price两个字段清洗成数字② 清除字段缺失的数据③ commentlist拆分成三个字段,并且清洗成数字数据源格式如下:import pandas as pdimport numpy as np# 1.成功读入数据df=pd.read_csv('D:/Py...

2021-11-01 15:18:07 512

原创 mysql rank,dense_rank,row_number区别

row_number:不考虑并列的情况,哪怕分数相同,排名都是一溜下来的自然数。dense_rank和rank 考虑并列的情况,区别在于rank不连续,并列排名的个数会影响接下来的排名,表现为数字的中断,而dense_rank 不管有几个并列的第2名,接下来都是从3开始排。且看下面的例子:DENSE_RANK() Rank() Row_number ...

2021-11-01 13:22:11 234

原创 win10安装MySQL

首先去官网下载安装。 官网地址:http://www.mysql.com下载社区版本,根据直接的电脑(windows/Mac,32位或64位下载)下载完之后先解压,然后在mysql下创建一个my.ini文件(创建my.txt,后缀名改为ini即可)。将下面这段话复制到my.ini文件中,注意改安装目录,my.ini文件不能多或少一个符号[mysqld]# 设置3306端口port=3306# 设置mysql的安装目录basedir=安装目录# 设置mysql数据库...

2021-11-01 11:07:47 104

原创 matplotlib折线图

Figure和Subplotmatplotlib的图像都位于Figure对象中,可以用plt.figure创建一个新的Figure。不能通过空Figure绘图。必须用add_subplot创建一个或多个subplot才行。import matplotlib.pyplot as pltimport numpy as npfig=plt.figure()ax1=fig.add_subplot(2,2,1)ax2=fig.add_subplot(2,2,2)# 背景颜色是蓝色ax3=fig.a

2021-10-31 20:58:44 432 1

原创 pandas数据变形之分组与聚合

分组运算过程 split->apply->combine拆分:进行分组的根据应用:每个分组运行的计算规则合并:把每个分组的计算结果合并起来1.分组函数-groupbygroupby(by=None) ,groupby实现了split过程。import pandas as pdimport numpy as npdf=pd.DataFrame({'key1':['a','a','b','b','a'], 'key2':...

2021-10-31 16:25:33 107

原创 pandas数据变形之关联

1.数据关联的几种方式-inner_join内连接、outer_join外连接、left_join左连接、righr_join右连接。import pandas as pddf4=pd.DataFrame(np.random.randint(2,9,(3,2)),index=['a','s','f'],columns=['A','B'])print(df4)out: A Ba 6 6s 4 4f 7 8df5=pd.DataFrame(np.random..

2021-10-31 15:31:25 824

原创 pandas数据加载

1.pandas读取CSV文件。读取处理:skiprows:跳过⼀定的⾏数nrows:仅读取⼀定的⾏数skipfooter:尾部有固定的⾏数不读取skip_blank_lines:空⾏跳过内容处理:sep/delimiter:分隔符很重要,常⻅的有逗号,空格和Tab(‘\t’),也可以指定正则表达式 na_values:指定应该被当作na_values的数值thousands:指定每千位分隔符 索引处理:index_col:将真实的某列(列的数⺫,甚⾄列.

2021-10-31 13:15:54 438

原创 pandas基础入门之数据修改

1.向量化函数应用map。map是作用在Series上,是元素级别的操作 Series.map(arg, na_action=None) ,arg可以是一个函数,对元素做函数变换 ,arg也可以是一个dict、series,对元素做数据映射。df=pd.Series([1,2,4,7,8],index=('a','m','c','e','f'))print(df)out:a 1m 2c 4e 7f 8print(df.map(lambda x:x*x)

2021-10-31 11:00:18 1775

原创 pandas基础入门之部分值替换与缺失值处理

1.部分值替换直接指定方式 :to_replace 与 value 配套使用,表示 old -> new 单独值:to_replace = old, value = new 相同长度list:to_replace = [old1, old2],value = [new1, new2] list->单值: to_replace = [old1, old2], value = new 指定相同列的dict: to_replace = {column1:old1, column...

2021-10-31 09:42:10 2468

文本分析-中文停用词集合

结合百度停用词表、哈工大停用词表、四川大学机器智能实验室停用词库、中文停用词表等

2024-06-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除