christianzhang93-CSDN博客

原创数据分析入门-Task04：数据可视化

数据分析入门-Task04：数据可视化2 第二章：数据可视化2.7 如何让人一眼看懂你的数据？2.7.1 可视化展示泰坦尼克号数据集中男女中生存人数分布情况（用柱状图试试）。2.7.2 可视化展示泰坦尼克号数据集中男女中生存人与死亡人数的比例图。2.7.3 可视化展示泰坦尼克号数据集中不同票价的人生存和死亡人数分布情况。（用折线图表示）（横轴是不同票价，纵轴是存活人数）2.7.4 可视化展示泰坦尼克号数据集中不同仓位等级的人生存和死亡人员的分布情况。2.7.5 可视化展示泰坦尼克号数据集中不同年龄的人生存与

2020-08-25 21:16:43 326

原创数据分析入门-Task03：数据重构

文章目录数据分析入门-Task03：数据重构2 第二章：数据重构2.4 数据的合并2.4.1 将data文件夹里面的所有数据都载入，观察数据的之间的关系2.4.2：使用concat方法：将数据train-left-up.csv和train-right-up.csv横向合并为一张表，并保存这张表为result_up2.4.3 使用concat方法：将train-left-down和train-right-down横向合并为一张表，并保存这张表为result_down。然后将上边的result_up和resul

2020-08-23 22:29:26 228

原创数据分析入门-Task02：数据清洗及特征处理

数据分析入门Task02：数据清洗及特征处理第二章：数据清洗及特征处理2.1 缺失值观察与处理2.1.1 缺失值观察2.1.2 对缺失值进行处理2.2 重复值观察与处理2.2.1 查看数据中的重复值2.2.2 对重复值进行处理2.2.3 将前面清洗的数据保存为csv格式2.3 特征观察与处理2.3.1 对年龄进行分箱（离散化）处理2.3.2 任务二：对文本变量进行转换2.3.3 从纯文本Name特征里提取出Titles的特征(所谓的Titles就是Mr,Miss,Mrs等)【回顾&引言】那么在这里

2020-08-21 20:36:48 404 1

原创机器学习入门：基于逻辑回归的分类

逻辑回归的定义简单来说，逻辑回归（Logistic Regression）是一种用于解决二分类（0 or 1）问题的机器学习方法，用于估计某种事物的可能性。比如某用户购买某商品的可能性，某病人患有某种疾病的可能性，以及某广告被用户点击的可能性等。注意，这里用的是“可能性”，而非数学上的“概率”，logisitc回归的结果并非数学定义中的概率值，不可以直接当做概率值来用。该结果往往用于和其他特征值加权求和，而非直接相乘。那么逻辑回归与线性回归是什么关系呢？逻辑回归（Logistic Regressi

2020-08-21 00:02:53 491 1

原创数据分析入门 Task01:数据载入及初步观察

复习：这门课程得主要目的是通过真实的数据，以实战的方式了解数据分析的流程和熟悉数据分析python的基本操作。知道了课程的目的之后，我们接下来我们要正式的开始数据分析的实战教学，完成kaggle上泰坦尼克的任务，实战数据分析全流程。这里有两份资料：教材《Python for Data Analysis》和 baidu.com &google.com（善用搜索引擎）1 第一章：数据载入及初步观察1.1 载入数据数据集下载 https://www.kaggle.com/c/titanic/o

2020-08-20 00:07:30 1121

原创 Python 编程基础09:文件与文件系统

目录Python 编程基础09:文件与文件系统OS 模块中关于文件/目录常用的函数序列化与反序列化Python 编程基础09:文件与文件系统打开文件open(file, mode=‘r’, buffering=None, encoding=None, errors=None, newline=None, closefd=True) Open file and return a stream. Raise OSError upon failure.file: 必需，文件路径（相对或者绝对路径）。

2020-08-08 23:34:20 103

原创 Python 编程基础08:模块与datetime模块

Python 编程基础08:模块与datetime模块模块模块定义命名空间Datetimedatetime类date类time类timedelta类模块模块定义Python 提供了一个办法，把这些定义存放在文件中，为一些脚本或者交互式的解释器实例使用，这个文件被称为模块。模块是一个包含所有你定义的函数和变量的文件，其后缀名是.py。模块可以被别的程序引入，以使用该模块中的函数等功能。这也是使用 python 标准库的方法。容器 -> 数据的封装函数 -> 语句的封装类 ->

2020-08-08 12:12:02 176

原创 Python 编程基础07：类、对象与魔法方法

Python 编程基础07：类、对象与魔法方法类与对象1.对象 = 属性 + 方法对象是类的实例。换句话说，类主要定义对象的结构，然后我们以类为模板创建对象。类不但包含方法定义，而且还包含所有实例共享的数据。封装：信息隐蔽技术我们可以使用关键字 class 定义 Python 类，关键字后面紧跟类的名称、分号和类的实现。继承：子类自动共享父类之间数据和方法的机制多态：不同对象对同一方法响应不同的行动2. self 是什么？Python 的 self 相当于 C++ 的 this 指针。类

2020-08-06 00:21:26 124

原创零基础入门NLP - 新闻文本分类-Task6:基于深度学习的文本分类3

零基础入门NLP - 新闻文本分类-Task6:基于深度学习的文本分类3学习目标了解了解Transformer的原理和基于预训练语言模型（Bert）的词表示学会Bert的使用，具体包括pretrain和finetuneTransformer原理Transformer是在"Attention is All You Need"中提出的，模型的编码部分是一组编码器的堆叠（论文中依次堆叠六个编码器），模型的解码部分是由相同数量的解码器的堆叠。我们重点关注编码部分。他们结构完全相同，但是并不共享参数，每一

2020-08-04 23:16:25 166

原创 Python 编程基础06：函数与Lambda表达式

Python 编程基础06：函数与Lambda表达式先打卡，内容后补上。

2020-08-02 23:24:57 104

原创零基础入门NLP - 新闻文本分类-Task5:基于深度学习的文本分类

零基础入门NLP - 新闻文本分类-Task5:基于深度学习的文本分类2该任务是用Word2Vec进行预处理，然后用TextCNN和TextRNN进行分类。TextCNN是利用卷积神经网络进行文本文类，TextCNN是用循环神经网络进行文本分类。1.Word2Vec文本是一类非结构化数据，文本表示模型有词袋模型（Bag of Words）、主题模型（Topic Model）、词嵌入模型（Word Embedding）。词嵌入是一类将词向量化的模型的统称，核心思想是将每个词都映射成低维空间上的一个稠密

2020-08-02 22:50:21 376

原创 Python 编程基础05：字典、集合和序列

Python 编程基础05：字典、集合和序列先打卡，内容明天补上。

2020-07-31 23:11:50 117

原创 Python 编程基础04：列表、元组和字符

Python 编程基础04：列表、元组和字符先打卡，内容明天补上。

2020-07-28 23:44:25 83

原创零基础入门NLP - 新闻文本分类-Task4:基于深度学习的文本分类1

目录Task4:基于深度学习的文本分类1目标回顾FastText官方开源的FastTex使用：如何使用验证集调参Task4:基于深度学习的文本分类1与传统机器学习不同，深度学习既提供特征提取功能，也可以完成分类的功能。从本章开始我们将学习如何使用深度学习来完成文本表示。目标学会fasttext 的使用和基础原理学会使用验证集进行调参回顾上一章节我们了解了sklearn的文本分类方法但是我们发现sklearn 的方法消耗时间长而且没有考虑词语之间的关系只是进行统计FastTextFas

2020-07-27 21:37:41 172

原创零基础入门NLP - 新闻文本分类-Task3:基于机器学习的文本分类

文章目录基于机器学习的文本分类文本特征提取基于机器学习的文本分类Count Vectors + RidgeClassifierTF-IDF + RidgeClassifier基于机器学习的文本分类文本特征提取在机器学习算法的训练过程中，假设给定NNN个样本，每个样本有MMM个特征，这样组成了N×MN×MN×M的样本矩阵，然后完成算法的训练和预测。同样的在计算机视觉中可以将图片的像素看作特征，每张图片看作hight×width×3的特征图，一个三维的矩阵来进入计算机进行计算。但是在自然语言领域，上述方

2020-07-25 23:07:00 149

原创 Python 编程基础03：异常处理

目录异常处理Python 标准异常总结Python标准警告总结try - except 语句try - except - finally 语句try - except - else 语句raise语句练习题：异常处理异常就是运行期检测到的错误。计算机语言针对可能出现的错误定义了异常类型，某种错误引发对应的异常时，异常处理程序将被启动，从而恢复程序的正常运行。Python 标准异常总结BaseException：所有异常的基类Exception：常规异常的基类StandardError：所有

2020-07-25 15:28:16 176

原创 Python入门：条件与循环语句

条件语句和循环语句python入门：条件与循环条件语句循环语句练习练习1练习2 龟兔赛跑游戏python入门：条件与循环条件语句if 语句if 2 > 1 and not 2 > 3: # if后为条件，可借布尔操作符 and，or和not 实现多重条件判断 print('Correct Judgement!') # 语句体，语句数目至少得为1个，可以使用pass语句if - else 语句二选一执行例1temp = input("猜一猜小姐姐想的是哪个

2020-07-23 21:43:50 229

原创零基础入门NLP - 新闻文本分类-Task2: 数据读取与数据分析

目录Task2 数据读取与数据分析1. 学习目标2. 数据读取3. 数据分析3.1 句子长度分析3.2 新闻类别分布3.3 字符分布统计4. 数据分析的结论Task2 数据读取与数据分析本章主要内容为数据读取和数据分析，具体使用Pandas库完成数据读取操作，并对赛题数据进行分析构成。1. 学习目标学习使用Pandas读取赛题数据分析赛题数据的分布规律2. 数据读取赛题数据虽然是文本数据，每个新闻是不定长的，但任然使用csv格式进行存储。因此可以直接用Pandas完成数据读取的操作。im

2020-07-22 23:22:52 191

原创 Python 编程基础-01：变量、运算符与数据类型

目录Task01：变量、运算符与数据类型1.注释2. 运算符3. 变量和赋值4. 数据类型与转换5. print() 函数Task01：变量、运算符与数据类型1.注释在 Python 中，# 表示注释，作用于整行。# 这是注释print('hello world')hello world‘’’ ‘’’ 或者 “”" “”" 表示区间注释，在三引号之间的所有内容被注释'''这是多行注释，用三个单引号这是多行注释，用三个单引号这是多行注释，用三个单引号'''print("H

2020-07-22 18:46:54 211

原创零基础入门NLP - 新闻文本分类-Task01 赛题解读

Task01 赛题解读赛题理解学习目标赛题数据数据标签评测指标数据读取解题思路赛题理解赛题名称：零基础入门NLP之新闻文本分类赛题目标：通过这道赛题可以引导大家走入自然语言处理的世界，带大家接触NLP的预处理、模型构建和模型训练等知识点。赛题任务：赛题以自然语言处理为背景，要求选手对新闻文本进行分类，这是一个典型的字符识别问题。学习目标理解赛题背景与赛题数据处理理解基本的文本分类和自然语言处理的思路赛题数据赛题以匿名处理后的新闻数据为赛题数据，数据集报名后可见并可下载。赛题数据为新

2020-07-21 21:06:20 148

原创概率统计基础：随机事件与随机变量

概率统计基础：随机事件与随机变量一、随机事件1.基本概念释义2.概率2.1 定义：2.2 主要性质：2.3 古典概型4.条件概率5.全概率公式和贝叶斯公式二、随机变量1.随机变量及其分布2. 离散型随机变量3.常见的离散型分布1.伯努利实验，二项分布4.随机变量的数字特征1.数学期望2.方差3.协方差和相关系数一、随机事件1.基本概念释义现实生活中，一个动作或一件事情，在一定条件下，所得的结果不能预先完全确定，而只能确定是多种可能结果中的一种，称这种现象为随机现象。例如，抛掷一枚硬币，其结果有

2020-06-30 12:11:14 752

转载天池零基础入门CV赛事- 街景字符编码识别-Task5-模型集成

天池零基础入门CV赛事- 街景字符编码识别-Task5-模型集成5. 模型集成5.1 集成学习方法5.2 深度学习中的集成学习5.2.1 Dropout5.2.2 TTA5.2.3 Snapshot5.3 结果后处理5.4 本章小节在上一章我们学习了如何构建验证集，如何训练和验证。本章作为本次赛题学习的最后一章，将会讲解如何使用集成学习提高预测精度。5. 模型集成本章讲解的知识点包括：集成学习方法、深度学习中的集成学习和结果后处理思路。5.1 集成学习方法在机器学习中的集成学习可以在一定程度上提高

2020-06-02 21:52:21 228

原创天池零基础入门CV赛事- 街景字符编码识别-Task4-模型训练和验证

目录天池零基础入门CV赛事- 街景字符编码识别-Task4-模型训练和验证构造训练集和验证集训练和验证的函数定义模型、损失函数、优化器和训练轮数根据最优验证集精度保存模型天池零基础入门CV赛事- 街景字符编码识别-Task4-模型训练和验证在本节我们目标使用Pytorch来完成CNN的训练和验证过程，CNN网络结构与之前的章节中保持一致。我们需要完成的逻辑结构如下：构造训练集和验证集；每轮进行训练和验证，并根据最优验证集精度保存模型。构造训练集和验证集train_loader = torch

2020-05-30 23:26:53 413 1

原创天池零基础入门CV赛事- 街景字符编码识别-Task3-字符识别模型

天池零基础入门CV赛事- 街景字符编码识别-Task3-字符识别模型Pytorch构建CNN模型模型搭建训练模型使用预训练模型Pytorch构建CNN模型在上一章节我们讲解了如何使用Pytorch来读取赛题数据集，本节我们使用本章学习到的知识构件一个简单的CNN模型，完成字符识别功能。在Pytorch中构建CNN模型非常简单，只需要定义好模型的参数和正向传播即可，Pytorch会根据正向传播自动计算反向传播。在本章我们会构建一个非常简单的CNN，然后进行训练。这个CNN模型包括两个卷积层，最后并联6

2020-05-26 21:37:53 352

原创天池零基础入门CV赛事- 街景字符编码识别-Task2-数据读取与扩增

天池零基础入门CV赛事- 街景字符编码识别Task2 数据读取与数据扩增1.图像读取1.1 Pillow1.2 OpenCV2.数据扩增方法2.1数据扩增介绍2.2 常见数据扩增方法2.3 常用数据扩增库Task2 数据读取与数据扩增本章主要学习CV竞赛方面数据读取与数据扩增方面知识点。1.图像读取这次赛题中的数据是图像数据，赛题的任务是识别图像中的字符。因此首先需要完成对数据的读取操作，在Python中有很多库可以完成数据读取的操作，比较常见的有Pillow和OpenCV。1.1 Pillow

2020-05-23 21:51:47 274

原创天池零基础入门CV赛事- 街景字符编码识别

目录天池：零基础入门CV赛事- 街景字符编码识别赛题理解赛题数据字段表评测标准解题思路天池：零基础入门CV赛事- 街景字符编码识别赛题理解赛题名称：零基础入门CV之街道字符识别赛题目标：通过这道赛题可以引导大家走入计算机视觉的世界，主要针对竞赛选手上手视觉赛题，提高对数据建模能力。赛题任务：赛题以计算机视觉中字符识别为背景，要求选手预测街道字符编码，这是一个典型的字符识别问题。赛题数据赛题来源自Google街景图像中的门牌号数据集（The Street View House Numbers

2020-05-20 22:38:21 473

christianzhang93的博客