Data whale
文章平均质量分 68
一个热爱学习的社区
DMax13
这个作者很懒,什么都没留下…
展开
-
task02LDA
datawhale task023.1 基本形式线性模型的本质是通过一个所有属性的线性组合进行预测的函数,即f(x)=w1x1+w2x2+...+wdxd+bf(x)=w_1x_1+w_2x_2+...+w_dx_d+bf(x)=w1x1+w2x2+...+wdxd+b一般用向量形式写成f(x)=wTx+bf(x)=w^Tx+bf(x)=wTx+b其中w表示属性在预测中的重要性。机器学习三要素: (1)确定研究模型 (2)确定损失函数 (3)确定优化算法3.2 线性回归从最简单原创 2021-12-26 23:28:21 · 631 阅读 · 0 评论 -
吃瓜task03
第三章 线性模型3.1 基本形式线性模型 (linear model)试图学得一个通过属性的线性组合来进行预测的函数f(x)=ω1x1+ω2x2+⋯+ωdxd+bf(x)=\omega_1x_1+\omega_2x_2+\cdots+\omega_dx_d+bf(x)=ω1x1+ω2x2+⋯+ωdxd+bf(x)=ωTx+bf(x)=\omega^Tx+bf(x)=ωTx+b3.2 线性回归“线性回归” (linear regression)试图学得一个线性模型以尽可能准确地预测实值原创 2021-12-21 00:56:13 · 549 阅读 · 0 评论 -
吃瓜日记1st
第1章 绪论1.1 引言机器学习致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。“经验”通常以“数据”的形式存在。机器学习研究的主要内容: 在计算机上从数据中产生“模型”(model)的算法,即“学习算法”。(learning alorithm)机器学习是研究“学习算法”的学问。1.2 基本术语记录 属性 属性值 属性空间(样本空间、输入空间)特征向量 维数 学习(训练)标记(带有结果信息) 样例 标记空间(输出空间) 分布 独立同分布学习的过程是为了逼近真相分类:对于离散值的原创 2021-12-14 22:50:10 · 103 阅读 · 0 评论 -
DockerTask01
DockerTask01学习内容:Docker 在容器的基础上,进行了进一步的封装,从文件系统、网络互联到进程隔离等等,极大的简化了容器的创建和维护。使得 Docker 技术比虚拟机技术更为轻便、快捷。虚拟机在宿主机(host)中的OS上面是hypervisor(hypervisor),然后依次建立虚拟机,虚拟化的仓库,然后安装程序。但是对于Docker来说,在宿主机(host)中的OS上面是Docker Engine,然后直接在Doker Engine安装应用。Docker三大概念镜像容器原创 2021-04-12 23:05:25 · 73 阅读 · 0 评论 -
task06综合练习
综合练习练习1:分组求和-创建employeeId VARCHAR(1) NOT NULL,Name VARCHAR(225) NOT NULL,Salary INT ,DepartmentID VARCHAR(1),PRIMARY KEY(Id));INSERT INTO employee VALUES('1','Joe',70000,'1'),('2','Henry',80000,'2'),('3','Sam',60000,'2'),('4','Max',90000,'1');原创 2020-12-28 21:49:02 · 95 阅读 · 0 评论 -
pandas_task05
练习1.df = pd.read_csv('data/Drugs.csv',index_col=['State','COUNTY']).sort_index()df.head()result = pd.pivot_table(df,index=['State','COUNTY','SubstanceName'] ,columns='YYYY' ,values='DrugReports',fill_value='-').rese..原创 2020-12-27 23:47:52 · 94 阅读 · 0 评论 -
第四章 分组
学习目标:第四章 分组学习产出:分组模式及其对象分组的一般模式语法df.groupby(分组依据)[数据来源].使用操作转载 2020-12-25 23:31:45 · 349 阅读 · 0 评论 -
Task05:SQL高级处理
学习目标:Task05:SQL高级处理学习产出:窗口函数(OLAP函数)<窗口函数> OVER ([PARTITION BY <列名>] ORDER BY <排序用列名>) []中的内容可以省略掉PARTITON BY是用来分组ORDER BY用于字段规则排序几个专用窗口函数RANK 如果有并列,则跳过之后的位次。如有三个并列第一名则:1,1,1,4,DENSE_RANK 如果有并列,但是不会跳过之后原创 2020-12-24 20:29:53 · 115 阅读 · 1 评论 -
Task03:索引
索引器列索引(for表)【df[‘col1’]】 == 【df.列名】#(列名中不包含空格):取相应列【df[[‘col1’, ‘col2’]]】#:取多列组成DataFrame行索引(for序列)以字符串为索引的Series以整数位索引的Series补充说明:如果不想陷入麻烦,请不要把纯浮点以及任何混合类型(字符串、整数、浮点类型等的混合) 作为索引,否则可能会在具体的操作时报错或者返回非预期的结果loc 索引基于元素的 loc 索引器,基于位置的 iloc 索引器loc[‘行名原创 2020-12-22 22:59:24 · 129 阅读 · 0 评论 -
SQL学习笔记task04——集合运算
加法UNION并集运算和OR语句有异曲同工之处,但是出于查询效率使用UNION更好SELECT FROMUNIONSELECT FROM练习题SELECT * FROM productWHERE sale_price>500UNIONSELECT * FROM product2WHERE sale_price>500;UNION中会对查询结果集进行合并去重,如果不需要去除可以使用UNION ALL语句差集与补集MySQL8.0暂时不支持EXCEPT原创 2020-12-22 22:01:36 · 113 阅读 · 0 评论 -
Task03:复杂一点的查询
学习目标:Task03:复杂一点的查询学习内容:1、 视图2、子查询3、 函数4、 谓词5、 CASE 表达式学习产出:视图一 、视图与数据表的区别视图数据表虚拟真实二、 视图的优点通过定义视图可以将频繁使用的SELECT语句保存以提高效率。通过定义视图可以使用户看到的数据更加清晰。通过定义视图可以不对外公开数据表全部字段,增强数据的保密性。通过定义视图可以降低数据的冗余。三、 具体语法(1)CREATE VIEW <视图名称&原创 2020-12-20 22:14:03 · 86 阅读 · 0 评论 -
Task02-Pandas基础
学习目标:Task02-Pandas基础学习内容:1、 一些自己之前忘记的东西2、 窗口对象3、 Pandas库函数总结4、练习题学习产出:一些之前自己忘记的东西在读取 txt 文件时,经常遇到分隔符非空格的情况, read_table 有一个分割参数 sep ,它使得用户可以自定义分割符号,进行 txt 数据的读取。例如,下面的读取的表以 |||| 为分割:这里注意sep是正则表达式,需要转义。需要将’engine’指定为python否则:ParserWarning:原创 2020-12-19 22:38:13 · 272 阅读 · 1 评论 -
Task02:基础查询与排序
学习目标:Task02:基础查询与排序学习内容:SELECT语句基础算术运算符和比较运算符逻辑运算符对表进行聚合查询对表进行分组为聚合结果指定条件对查询结果进行排序练习题学习产出:Select语句SELECT <列名>, …… FROM <表名> WHERE <条件表达式>;代表全部列出现中文用""扩出来在SQL中注释用–或者/ */下面给出一个实例来演示Select语句-- 想要查询出全部列时,可以使用代表原创 2020-12-17 22:46:52 · 64 阅读 · 0 评论 -
Pandas_Task01:预备知识
学习目标:python基础学习内容:提示:这里可以添加要学的内容例如:1、 python基础2、 pandas基础遗漏的python知识map函数:它返回的是一个 map 对象,需要通过 list 转为列表:map(function, iterable, ...)list(map(lambda x: 2*x, range(5)))#e.g.numpy总结可在这里下载练习题自己的想法#作业M1 = np.random.rand(2,3)M2 = np.rand原创 2020-12-16 23:50:20 · 178 阅读 · 1 评论 -
SQLTask01
学习目标:Task00:绪论 - 环境搭建Task01:初识数据库学习内容:MySQL 8.0 的安装数据库的一些基本知识学习时间:课程内容较为简单因此不占用太多时间1、 12.12晚2、 12.13下午学习产出:...原创 2020-12-14 23:37:38 · 92 阅读 · 0 评论