自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 Task03:基于机器学习的文本分类

数据读取 赛题数据虽然是文本数据,每个新闻是不定长的,但任然使用csv格式进行存储。因此可以直接用Pandas完成数据读取的操作。 1 import pandas as pd 2 train_df = pd.read_csv(’…/data/train_set.csv’, sep=’\t’, nrows=100) 这里的read_csv由三部分构成: 读取的文件路径,这里需要根据改成你本地的路径,可以使用相对路径或绝对路径; 分隔符sep,为每列分割的字符,设置为\t即可; 读取行数nrows,为此次读取文

2020-07-25 21:28:21 134

原创 Datawhale零基础入门NLP赛事 - Task2 数据读取与数据分析

学习目标 学习使用Pandas读取赛题数据 分析赛题数据的分布规律 数据读取 赛题数据虽然是文本数据,每个新闻是不定长的,但任然使用csv格式进行存储。因此可以直接用Pandas完成数据读取的操作。 1 import pandas as pd 2 train_df = pd.read_csv(’…/data/train_set.csv’, sep=’\t’, nrows=100) 这里的read_csv由三部分构成: 读取的文件路径,这里需要根据改成你本地的路径,可以使用相对路径或绝对路径; 分隔符sep,

2020-07-22 22:53:16 80

原创 Datawhale零基础入门NLP赛事 - Task1 赛题理解

赛题理解 赛题名称:零基础入门NLP之新闻文本分类 赛题目标:通过这道赛题可以引导大家走入自然语言处理的世界,带大家接触NLP的预处理、模型构建和模型训练等知识点。 赛题任务:赛题以自然语言处理为背景,要求选手对新闻文本进行分类,这是一个典型的字符识别问题。 学习目标 理解赛题背景与赛题数据 完成赛题报名和数据下载,理解赛题的解题思路 赛题数据 赛题以匿名处理后的新闻数据为赛题数据,数据集报名后可见并可下载。赛题数据为新闻文本,并按照字符级别进行匿名处理。整合划分出14个候选分类类别:财经、彩票、房产、股票

2020-07-21 21:03:57 141

原创 Task04:方差分析

这里写自定义目录标题方差分析单因素方差分析评估检验的假设条件双因素方差分析功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入 方差分析 方差分析主要研究分类变量作为自变量时,对因变量的影响是否是显著的。 单因素方差分析 评估检验的假设

2020-06-30 19:22:29 247

原创 Task03:常见分布与假设检验

常见分布与假设检验 ###随机变量 离散型随机变量和连续型随机变量 ###常见分布 离散型分布:二项分布、泊松分布、几何分布、负二巷分布、超几何分布 连续型分布:均匀分布、正态分布、指数分布 ###假设检验 在总体的分布函数完全未知或只知其形式,不知其参数的情况下,为了推断总体的某些未知特性,提出某些关于总体的假设,称为假设检验。 步骤:1.原假设和备择假设; 2.为验证假设收集数据; 3.构造合适的统计测试量并测试; 4.决定是接受还是拒绝原假设(P=0.05为临界值); 5.展示结论。 选择合适的统计量

2020-06-27 22:02:18 297

原创 Task02:数理统计与描述性分析

数理统计 总体:研究对象的全体 个体:组成总体的每个基本单元 ##统计量与抽样 统计量是样本的某种函数 统计量的分布为抽样分布 ##常用的统计量 样本均值 样本方差 k阶样本原点矩 k阶样本中心矩 顺序统计量 描述性统计 ##数据集中趋势的度量 平均数:容易受极端值影响 中位数:不受极端值影响 众数:不受极端值影响;当数据具有明显的集中趋势时,代表性好 百分位数 ##数据离散趋势的度量 方差 标准差 极差 变异系数:标准差与平均数之比 四分位差:样本上、下四分位数之差称为四分位数(半极差) ##分布特征 1

2020-06-24 21:31:46 203

原创 Task01:随机事件与随机变量

这里写自定义目录标题随机事件基本概念释义概率古典概率条件概率全概率公式和贝叶斯概率公式随机变量随机变量及其分布常见的离散型分布伯努利试验二项分布随机变量的数字特征期望方差功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入 随机事件 1

2020-06-22 21:34:49 272

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除