Alhfors-CSDN博客

原创李弘毅 task1

机器学习简介让各种各样人类创造的设备,机械,工具等等帮助人做事,一直以来都是人们梦寐以求的.自动计算机产生之后,如何让计算机模仿人,或者至少能够在某些任务上可以像人一样的聪明,就成为了一个比较核心的问题.当前而言, 机器学习这个名词所涵盖的内容,就代表了目前计算机帮助人类做事的最高水平. 所谓的机器学习,也就是让机器具有学习的能力,他是达成"让机器能够在某些领域某些问题上像人一样工作的"手段,就是说,希望机器通过学习方式,在处理某些问题时,像人一样聪明深度学习,是当前机器学习最热门的一种方法.我们

2021-09-13 22:35:56 296

原创动手学习数据分析-task01

task01**复习：**这门课程得主要目的是通过真实的数据，以实战的方式了解数据分析的流程和熟悉数据分析python的基本操作。知道了课程的目的之后，我们接下来我们要正式的开始数据分析的实战教学，完成kaggle上泰坦尼克的任务，实战数据分析全流程。这里有两份资料：教材《Python for Data Analysis》第六章和 baidu.com &google.com（善用搜索引擎）第一章：数据载入及初步观察1.1 载入数据数据集下载 https://www.kaggle.com

2020-08-19 22:49:58 1138

原创 NLP-task5

基于预测的词向量目前，基于预测的词向量是最流行的，比如word2vec。现在我们来探索word2vec生成的词向量。这一部分主要是使用gensim探索词向量，不是自己实现word2vec，所使用的词向量维度是300，由google发布。# 导入包import sysassert sys.version_info[0]==3assert sys.version_info[1] >= 5from gensim.models import KeyedVectors # KeyedVec

2020-07-06 22:55:18 234

原创 NLP-task4

单词表示的两大问题对于一个 word type 总是用相同的表示，不考虑这个 word token 出现的上下文我们对一个词只有一种表示，但是单词有不同的方面，包括语义，句法行为，以及表达/ 含义单词表示的解决方法：在模型中，我们通过LSTM层（也许旨在语料库上训练）在那些LSTM层被训练来预测下一个单词但是这些语言模型在每一个位置生成特定与上下文的词表示Representations for a word使用LSTM之类的循环神经网络训练word vector，会有一定的局限性。类似虽

2020-07-04 00:16:09 176

原创 DataWhale-NLP-task3

利用word embedding之类的方法, 基于单词级别的模型, 虽然能够很好的对词库中每一个词进行向量表示, 但也存在一些问题: 首先需要处理和维护巨大的开放词表,其次, 容易出现单词不存在于词汇库中的情况，也就是 OOV(out-of-vocabulary),此外单词的非正式拼写与拼写错误等问题也经常出现.一个比较直观的想法就是利用比word更基本的元素来建立模型.Character-Level Model该模型是将 Character (音节) 作为基本单位进行的，它能够解决 Word-lev

2020-07-01 00:02:37 160

原创 DataWhale-NLP-task2

DataWhale-NLP-task2基于统计的词向量新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入Task02：Word Vectors and Word Senses （3天）基于统计的词向量词向量目的：希望通过

2020-06-27 23:58:25 175

原创 datawhale--NPL-task1

自然语言处理自然语言处理是使用计算机科学的相关工具来研究人类语言的一门学科. 它的核心问题包括:1.自然语言理解, 即让计算机能理解自然语言文本(或语音)的含义;2.自然语言生成, 即让计算机生成人能够理解的字眼语言文本.实现上述两个问题, 就能够让人机之间用自然语言进行交流. 这方面的典型应用有问答系统, 聊天机器人,等等.自然语言处理中存在着两种不同的研究方法，一种是理性主义（rationalist）方法，另一种是经验主义（empiricist）方法。理性主义方法主张建立符号处理系.

2020-06-25 00:48:30 244

原创 TASK-01

cv第一次打卡2020.05.20pytorch环境安装使用centos 无GPU版pytorch首先使用如下命令在Anaconda中创建一个专门用于本次天池练习赛的虚拟环境。conda create -n py37_torch131 python=3.7然后激活环境，并安装pytorch1.3.1source activate py37_torch131conda install pytorch=1.3.1 torchvision cudatoolkit=10.0通过下

2020-05-20 21:11:12 225 1

原创 Task4-331

Datawhale 零基础入门数据挖掘-Task4 建模调参四、建模与调参Tip:此部分为零基础入门数据挖掘的 Task4 建模调参部分，带你来了解各种模型以及模型的评价和调参策略，欢迎大家后续多多交流。赛题：零基础入门数据挖掘 - 二手车交易价格预测地址：https://tianchi.aliyun.com/competition/entrance/231784/introductio...

2020-04-01 12:16:06 283

原创 Task3-328

Task3 特征工程3.1 特征工程目标对于特征进行进一步分析，并对于数据进行处理完成对于特征工程的分析，并对于数据进行一些图表或者文字总结并打卡。3.2 内容介绍常见的特征工程包括：异常处理：通过箱线图（或 3-Sigma）分析删除异常值；BOX-COX 转换（处理有偏分布）；长尾截断；特征归一化/标准化：标准化（转换为标准正态分布）；归一化（抓换到 [0,1...

2020-03-28 21:24:01 276

原创 datawhale二手车数据挖掘项目学习task2

task2-(探索性)数据分析导入需要的包(根据需要逐步增加)import numpy as npimport pandas as pdimport warningsimport matplotlibimport matplotlib.pyplot as pltfrom IPython.display import Imagefrom datetime import datet...

2020-03-24 21:05:37 379

Alhfors的博客