阿水ashui-CSDN博客

原创 Datawhale数据分析组队学习打卡第五次

第三章模型搭建和评估–建模经过前面的两章的知识点的学习，我可以对数数据的本身进行处理，比如数据本身的增删查补，还可以做必要的清洗工作。那么下面我们就要开始使用我们前面处理好的数据了。这一章我们要做的就是使用数据，我们做数据分析的目的也就是，运用我们的数据以及结合我的业务来得到某些我们需要知道的结果。那么分析的第一步就是建模，搭建一个预测模型或者其他模型；我们从这个模型的到结果之后，我们要分析我的模型是不是足够的可靠，那我就需要评估这个模型。今天我们学习建模，下一节我们学习评估。我们拥有的泰坦尼克号的数

2020-08-27 15:55:03 289 1

原创力扣组队刷题打卡第四次

文章目录二. 对撞指针LeetCode 1 Two Sum题目描述审题:分析实现暴力法O(n^2)排序+指针对撞(O(n)+O(nlogn)=O(n))小套路:更加pythonic的实现查找表--O(n)补充思路：LeetCode 15 3Sum题目描述审题分析实现没有考虑重复元素导致错误代码实现小套路LeetCode 18 4Sum题目描述题目分析超出时间限制LeetCode 16 3Sum Closest题目描述分析实现伪代码3Sum问题两层遍历得套路代码：代码实现：LeetCode 454 4SumⅡ

2020-08-27 15:44:22 345

原创 leetcode组队刷题打卡第三次

文章目录一.查找表考虑的基本数据结构算法应用LeetCode 349 Intersection Of Two Arrays 1题目描述分析实现LeetCode 350 Intersection Of Two Arrays 2题目描述分析实现LeetCode 242 Intersection Of Two Arrays 2题目描述分析实现LeetCode 202 Happy number题目描述分析实现tipsLeetCode 290 Word Pattern题目描述分析实现tipsLeetCode 205

2020-08-25 13:46:28 180

原创 Datawhale数据分析组队学习打卡第四次

**复习：**回顾学习完第一章，我们对泰坦尼克号数据有了基本的了解，也学到了一些基本的统计方法，第二章中我们学习了数据的清理和重构，使得数据更加的易于理解；今天我们要学习的是第二章第三节：数据可视化，主要给大家介绍一下Python数据可视化库Matplotlib，在本章学习中，你也许会觉得数据很有趣。在打比赛的过程中，数据可视化可以让我们更好的看到每一个关键步骤的结果如何，可以用来优化方案，是一个很有用的技巧。2 第二章：数据可视化开始之前，导入numpy、pandas包和数据# 加载所需的库# 如

2020-08-24 14:29:19 212

原创 Datewhale数据分析组队学习打卡第三次

# 导入基本库import numpy as npimport pandas as pd# 载入data文件中的:train-left-up.csvtext = pd.read_csv('/Users/chenandong/Documents/datawhale数据分析每个人题目设计/招募阶段/第二章项目集合/data/train-left-up.csv')text.head() PassengerId Survived

2020-08-22 10:51:39 290

原创 leetcode组队刷题打卡第二次

动态规划动态规划常常适用于有重叠子问题和最优子结构性质的问题，动态规划方法所耗时间往往远少于朴素解法。主要思想若要解一个给定问题，我们需要解其不同部分（即子问题），再根据子问题的解以得出原问题的解。动态规划往往用于优化递归问题，例如斐波那契数列，如果运用递归的方式来求解会重复计算很多相同的子问题，利用动态规划的思想可以减少计算量。动态规划法仅仅解决每个子问题一次，具有天然剪枝的功能，从而减少计算量，一旦某个给定子问题的解已经算出，则将其记忆化存储，以便下次需要同一个子问题解之时直接查表。动态规划

2020-08-21 14:38:24 218

原创 Datawhale数据分析组队学习打卡第二次

【回顾&引言】前面一章的内容大家可以感觉到我们主要是对基础知识做一个梳理，让大家了解数据分析的一些操作，主要做了数据的各个角度的观察。那么在这里，我们主要是做数据分析的流程性学习，主要是包括了数据清洗以及数据的特征处理，数据重构以及数据可视化。这些内容是为数据分析最后的建模和模型评价做一个铺垫。2 第二章：数据清洗及特征处理开始之前，导入numpy、pandas包和数据#加载所需的库import numpy as npimport pandas as pd#加载数据train.csv

2020-08-20 17:44:09 225

原创力扣组队刷题打卡第一次

分治引文MapReduce（分治算法的应用）是 Google 大数据处理的三驾马车之一，另外两个是 GFS 和 Bigtable。它在倒排索引、PageRank 计算、网页分析等搜索引擎相关的技术中都有大量的应用。尽管开发一个 MapReduce 看起来很高深，感觉遥不可及。实际上，万变不离其宗，它的本质就是分治算法思想，分治算法。如何理解分治算法？为什么说 MapRedue 的本质就是分治算法呢？主要思想分治算法的主要思想是将原问题递归地分成若干个子问题，直到子问题满足边界条件，停止递归。将子

2020-08-19 15:51:33 169

原创 Datewhale数据分析组队学习第一次打卡

**复习：**这门课程得主要目的是通过真实的数据，以实战的方式了解数据分析的流程和熟悉数据分析python的基本操作。知道了课程的目的之后，我们接下来我们要正式的开始数据分析的实战教学，完成kaggle上泰坦尼克的任务，实战数据分析全流程。这里有两份资料：教材《Python for Data Analysis》和 baidu.com &google.com（善用搜索引擎）1 第一章：数据载入及初步观察1.1 载入数据数据集下载 https://www.kaggle.com/c/titan

2020-08-18 13:11:06 393

原创 NLP学习实践天池新人赛打卡第六天

NLP学习实践天池新人赛打卡第六天Task6 基于深度学习的文本分类3文本表示方法Part4Transformer基于预训练语言模型的词表示基于Bert的文本分类Task6 基于深度学习的文本分类3文本表示方法Part4Transformer可以看台大李宏毅老师讲transformer和BERT的这两个视频，讲的很详细TransformerBERT,ELMO,GPTTransformer是在Attention is All You Need中提出的，模型的编码部分是一组编码器的堆叠（论文中依次

2020-08-03 12:09:03 145

原创 NLP学习实践天池新人赛打卡第五天

NLP学习实践天池新人赛打卡第五天Task5 基于深度学习的文本分类2word2vecSkip-grams原理和网络结构Skip-grams训练Word pairs and "phases"对高频词抽样Negative samplingHierarchical Softmax霍夫曼树Hierarchical Softmax过程使用gensim训练word2vecTextCNNTextRNN使用HAN用于文本分类Task5 基于深度学习的文本分类2word2vecword2vec模型背后的基本思想是对出

2020-07-30 13:55:41 321

原创 NLP学习实践天池新人赛打卡第四天

NLP学习实践天池新人赛打卡第三天Task4 基于深度学习的文本分类1-fastText文本表示方法 Part2FastText基于FastText的文本分类如何使用验证集调参Fasttext模型结果参数调整Task4 基于深度学习的文本分类1-fastText文本表示方法 Part2深度学习可以用于文本表示，可以将其映射到一个低纬空间。其中比较典型的例子有：FastText、Word2Vec和Bert。这里我们将介绍FastTextFastTextFastText是一种典型的深度学习词向量的表示

2020-07-26 12:44:47 204

原创 NLP学习实践天池新人赛打卡第三天

NLP学习实践天池新人赛打卡第三天Task3 基于机器学习的文本分类文本表示方法One-hotBag of WordsN-gramTF-IDF基于机器学习的文本分类Count Vectors + RidgeClassifierTF-IDF + RidgeClassifier本章作业作业1作业2SVMTask3 基于机器学习的文本分类文本表示方法在机器学习算法的训练过程中，假设给定 NNN 个样本，每个样本有 MMM 个特征，这样组成了 N×MN×MN×M的样本矩阵，然后完成算法的训练和预测。但是

2020-07-23 15:23:40 165

原创 NLP学习实践天池新人赛打卡第二天

NLP学习实践天池新人赛打卡第二天Task2 数据读取与数据分析数据读取数据分析句子长度分析新闻类别分布字符分布统计数据分析的结论本章作业假设字符3750，字符900和字符648是句子的标点符号，分析赛题每篇新闻平均由多少个句子构成统计每类新闻中出现次数对多的字符Task2 数据读取与数据分析使用Pandas库完成数据读取操作，并对赛题数据进行分析构成。数据读取import pandas as pdtrain_df = pd.read_csv('./train_set.csv', sep='\t'

2020-07-22 13:43:19 175

原创 NLP学习实践天池新人赛打卡第一天

Datawhale零基础入门NLP赛事 - Task1 赛题理解赛题理解学习目标赛题数据数据标签评测指标数据读取解题思路赛题理解赛题名称：零基础入门NLP之新闻文本分类赛题目标：通过这道赛题可以引导大家走入自然语言处理的世界，带大家接触NLP的预处理、模型构建和模型训练等知识点。赛题任务：赛题以自然语言处理为背景，要求选手对新闻文本进行分类，这是一个典型的字符识别问题。学习目标理解赛题背景与赛题数据完成赛题报名和数据下载，理解赛题的解题思路赛题数据赛题以匿名处理后的新闻数据为赛题数据，数据

2020-07-21 14:32:34 147

zzz